Ежедневно отобранные исследовательские статьи по ИИ с переводами
Текущие бенчмарки с длинным контекстом в основном сосредоточены на тестах на основе извлечения, требуя от моделей с большими языковыми моделями (LLM) находить конкретную информацию в обширных контекстах ввода, таких как бенчмарк "иголка в стоге сена" (NIAH). Генерация длинного контекста относится к способности языковой модели генерировать согласованный и контекстуально точный текст, охватывающий обширные отрывки или документы. Хотя недавние исследования показывают высокую производительность на NIAH и других бенчмарках с длинным контекстом на основе извлечения, существует значительный недостаток бенчмарков для оценки возможностей генерации длинного контекста. Для заполнения этой пробела и предложения всесторонней оценки мы представляем синтетический бенчмарк, LongGenBench, который позволяет гибкие конфигурации настраиваемых длин контекста для генерации. LongGenBench продвигается за пределы традиционных бенчмарков путем переработки формата вопросов и требования от LLM предоставить один цельный ответ с длинным контекстом. После обширной оценки с использованием LongGenBench мы наблюдаем, что: (1) как API-модели, так и модели с открытым исходным кодом демонстрируют деградацию производительности в сценариях генерации длинного контекста, варьирующуюся от 1,2% до 47,1%; (2) различные серии LLM показывают различные тенденции деградации производительности, причем модель Gemini-1.5-Flash демонстрирует наименьшую деградацию среди API-моделей, а серия Qwen2 - наименьшую деградацию в LongGenBench среди моделей с открытым исходным кодом.
Понимание и точное следование инструкциям критически важно для эффективной работы больших языковых моделей (LLM) в различных задачах. В данной работе мы тщательно исследуем ключевые факторы, способствующие обобщению моделей на невидимые инструкции, предоставляя понимание для сбора данных для настройки инструкций. Через контролируемые эксперименты, вдохновленные алгоритмом Тьюринг-полным Маркова, мы демонстрируем, что такое обобщение возникает только тогда, когда обучающие данные достаточно диверсифицированы по семантическим областям. Наши результаты также показывают, что простое разнообразие в ограниченных областях не гарантирует надежного обобщения. В отличие от этого, диверсификация данных между областями, даже при ограниченных бюджетах данных, значительно улучшает адаптивность модели. Мы также расширяем наш анализ до реальных сценариев, включая настройку $textbf{специализированных}$ и $textbf{универсальных}$ моделей. В обоих случаях мы демонстрируем, что 1) лучшие результаты могут быть достигнуты путем увеличения разнообразия установленного набора данных при постоянном размере данных, и 2) при увеличении объема данных, диверсификация семантики инструкций более эффективна, чем простое увеличение количества похожих данных. Наши исследования предоставляют важные понимания для сбора набора данных, особенно при оптимизации производительности модели путем расширения обучающих данных как для специалистов, так и для универсальных сценариев. Мы показываем, что тщательное рассмотрение диверсификации данных является ключевым: обучение специализированных моделей данными, выходящими за пределы их основной области, приводит к значительному улучшению производительности, в то время как универсальные модели выигрывают от разнообразных смесей данных, улучшающих их общие возможности следования инструкциям в широком спектре приложений. Наши результаты подчеркивают критическую роль стратегической диверсификации и предлагают четкие рекомендации для улучшения качества данных.
Эта работа решает проблему потери информации в узком месте квантования векторов (VQ) в авторегрессивной генерации изображений путем введения новой модельной архитектуры, названной 2-мерным авторегрессором (DnD) Трансформером. DnD-Трансформер предсказывает больше кодов для изображения путем введения нового направления авторегрессии, глубины модели, наряду с направлением длины последовательности. По сравнению с традиционной 1D авторегрессией и предыдущими работами, использующими аналогичное 2D разложение изображения, такое как RQ-Трансформер, DnD-Трансформер является моделью end-to-end, способной генерировать изображения более высокого качества с тем же размером основной модели и длиной последовательности, открывая новую перспективу оптимизации для авторегрессивной генерации изображений. Более того, наши эксперименты показывают, что потенциал DnD-Трансформера простирается далеко за пределы генерации естественных изображений. Он даже способен генерировать изображения с богатым текстом и графическими элементами самостоятельно, демонстрируя понимание этих объединенных модальностей. Это ранее не демонстрировалось для популярных моделей генерации видения, таких как модели диффузии, показывая искру интеллекта видения-языка при обучении исключительно на изображениях. Код, наборы данных и модели доступны по адресу https://github.com/chenllliang/DnD-Transformer.
С существенными усилиями в последних исследованиях LLM-как-Судья стал экономически эффективной альтернативой человеческой оценке для оценки качества генерации текста в широком спектре задач. Однако все еще существует надежностный разрыв между LLM-как-Судья и человеческой оценкой. Одной из важных причин является отсутствие направляющих оракулов в процессе оценки. Вдохновленные ролью ссылки, широко используемой в классической оценке текста, мы представляем RevisEval, новую парадигму оценки генерации текста через адаптированные к ответу ссылки. RevisEval основан на ключевом наблюдении, что идеальная ссылка должна поддерживать необходимую связь с ответом, который должен быть оценен. Конкретно, RevisEval использует возможности редактирования текста больших языковых моделей (LLM) для адаптивного пересмотра ответа, затем рассматривает отредактированный текст как ссылку (адаптированную к ответу), для последующей оценки. Обширные эксперименты демонстрируют, что RevisEval превосходит традиционные парадигмы оценки без ссылок и с ссылками, использующие LLM-как-Судью, в различных задачах генерации естественного языка и задачах выполнения инструкций. Более того, наши адаптированные к ответу ссылки могут дополнительно улучшить классические текстовые метрики, такие как BLEU и BERTScore, по сравнению с традиционными ссылками и даже конкурировать с LLM-как-Судьей. Также проведен детальный анализ для подтверждения эффективности RevisEval в снижении предвзятости, влиянии стоимости вывода и соответствии ссылок.
Улучшение способностей к рассуждению крупных языковых моделей (LLM) привлекло значительное внимание в последние годы. Предыдущие исследования продемонстрировали эффективность различных стратегий подсказок, помогающих LLM в рассуждениях (называемых "действиями рассуждения"), таких как пошаговое мышление, размышление перед ответом, решение с помощью программ и их комбинации. Однако эти подходы часто применяли статические, заранее определенные действия рассуждения равномерно ко всем вопросам, не учитывая конкретные характеристики каждого вопроса или способности LLM к решению задачи. В данной статье мы предлагаем DOTS, подход, позволяющий LLM рассуждать динамически с помощью поиска оптимальной траектории рассуждения, адаптированной к конкретным характеристикам каждого вопроса и врожденной способности LLM к решению задачи. Наш подход включает три ключевых этапа: i) определение атомных модулей действий рассуждения, которые могут быть объединены в различные траектории действий рассуждения; ii) поиск оптимальной траектории действий для каждого обучающего вопроса через итеративное исследование и оценку для конкретного LLM, решающего задачу; и iii) использование собранных оптимальных траекторий для обучения LLM планированию траекторий рассуждения для невидимых вопросов. В частности, мы предлагаем две парадигмы обучения, а именно, донастройку внешнего LLM в качестве планировщика для направления LLM, решающего задачу, или прямую донастройку LLM, решающего задачу, с внутренней способностью к планированию действий рассуждения. Наши эксперименты по восьми задачам рассуждения показывают, что наш метод последовательно превосходит статические методы рассуждения и обычный подход к настройке инструкций. Дополнительный анализ показывает, что наш метод позволяет LLM адаптировать свои вычисления в зависимости от сложности проблемы, выделяя более глубокое мышление и рассуждения для более сложных задач.
Модели авторегрессии (AR) переформулировали генерацию изображений как предсказание следующего токена, продемонстрировав замечательный потенциал и став сильными конкурентами для моделей диффузии. Однако генерация изображений с управлением, аналогичная ControlNet, остается в значительной степени неисследованной в рамках моделей AR. Хотя естественным подходом, вдохновленным достижениями в области крупных языковых моделей, является токенизация управляющих изображений на токены и предварительная загрузка их в модель авторегрессии перед декодированием токенов изображений, это все еще уступает по качеству генерации по сравнению с ControlNet и страдает от неэффективности. В этой связи мы представляем ControlAR, эффективную и эффективную структуру для интеграции пространственного управления в модели генерации изображений с использованием авторегрессии. Во-первых, мы исследуем кодирование управления для моделей AR и предлагаем легкий кодер управления для преобразования пространственных входов (например, края Канни или карты глубины) в управляющие токены. Затем ControlAR использует метод условного декодирования для генерации следующего токена изображения на основе объединения между токенами управления и изображения, аналогичного позиционным кодирования. По сравнению с предварительной загрузкой токенов, использование условного декодирования значительно укрепляет возможности управления моделями AR, но также сохраняет эффективность модели. Более того, предложенный ControlAR удивительным образом дает возможность моделям AR генерировать изображения произвольного разрешения с помощью условного декодирования и определенного управления. Обширные эксперименты могут продемонстрировать управляемость предложенного ControlAR для авторегрессивной генерации изображений с управлением по различным входам, включая края, глубины и маски сегментации. Кроме того, как количественные, так и качественные результаты показывают, что ControlAR превосходит предыдущие передовые модели диффузии с управлением, например, ControlNet++. Код, модели и демонстрация будут скоро доступны на https://github.com/hustvl/ControlAR.
Масштабирование вычислений вывода открыло потенциал крупных моделей языка с длинным контекстом (LLM) в различных сценариях. Для задач, требующих большого объема знаний, увеличение вычислительных ресурсов часто используется для интеграции дополнительных внешних знаний. Однако, без эффективного использования таких знаний, простое расширение контекста не всегда улучшает производительность. В данной работе мы исследуем масштабирование вывода для генерации с увеличенным поиском (RAG), исследуя стратегии, выходящие за рамки простого увеличения объема знаний. Мы сосредотачиваемся на двух стратегиях масштабирования вывода: обучении в контексте и итеративном подсказывании. Эти стратегии предоставляют дополнительную гибкость для масштабирования вычислений во время тестирования (например, путем увеличения извлеченных документов или шагов генерации), тем самым улучшая способность LLM эффективно усваивать и использовать контекстуальную информацию. Мы рассматриваем два ключевых вопроса: (1) Как производительность RAG выигрывает от масштабирования вычислений вывода при оптимальной настройке? (2) Можем ли мы предсказать оптимальное распределение вычислений на тестирование для заданного бюджета, моделируя отношение между производительностью RAG и параметрами вывода? Наши наблюдения показывают, что увеличение вычислений вывода приводит к почти линейному увеличению производительности RAG при оптимальном распределении, отношение, которое мы описываем как законы масштабирования вывода для RAG. На основе этого мы дополнительно разрабатываем модель распределения вычислений для оценки производительности RAG при различных конфигурациях вывода. Модель предсказывает оптимальные параметры вывода при различных ограничениях вычислений, которые тесно соответствуют экспериментальным результатам. Применяя эти оптимальные конфигурации, мы демонстрируем, что масштабирование вычислений вывода для LLM с длинным контекстом дает до 58,9% прироста на эталонных наборах данных по сравнению со стандартным RAG.
Большие языковые модели (LLM) привели к значительным достижениям в различных задачах обработки естественного языка (NLP), причем модели с учетом длинного контекста стали более популярными для обработки расширенных входных данных. Однако увеличение размера кэша ключ-значение (KV), необходимого для архитектур Transformer, усиливает ограничения памяти, особенно во время фазы декодирования, что создает значительное узкое место. Существующие механизмы разреженного внимания, разработанные для решения этой проблемы, имеют два ограничения: (1) они часто не могут надежно определить наиболее релевантные токены для внимания, и (2) они не учитывают пространственную согласованность выбора токенов через последовательные слои Transformer, что может привести к снижению производительности и значительным накладным расходам на выбор токенов. В данной статье представлен TidalDecode - простой, но эффективный алгоритм и система для быстрого и точного декодирования LLM с помощью разреженного внимания с постоянным положением. TidalDecode использует пространственную согласованность токенов, выбранных существующими механизмами разреженного внимания, и вводит несколько слоев выбора токенов, которые выполняют полное внимание для определения токенов с наивысшими оценками внимания, в то время как все остальные слои выполняют разреженное внимание с предварительно выбранными токенами. Такая концепция позволяет TidalDecode значительно сократить накладные расходы на выбор токенов для разреженного внимания, не жертвуя качеством сгенерированных результатов. Оценка на разнообразном наборе LLM и задач показывает, что TidalDecode близок по производительности генерации к методам полного внимания, снижая задержку декодирования LLM до 2,1 раза.
Обучение с подкреплением на основе обратной связи от человека (RLHF) продемонстрировало эффективность в выравнивании больших языковых моделей (LLM) с предпочтениями человека. Однако на уровне токенов RLHF сталкивается с проблемой присвоения заслуг на протяжении длинных последовательностей, где отсроченные вознаграждения затрудняют модели определить, какие действия привели к успешным результатам. Это затрудняет эффективность обучения и замедляет сходимость. В данной статье мы предлагаем MA-RLHF, простую, но эффективную структуру RLHF, которая включает макро-действия - последовательности токенов или более высокоуровневые языковые конструкции - в процесс обучения. Работая на этом более высоком уровне абстракции, наш подход уменьшает временное расстояние между действиями и вознаграждениями, облегчая более быстрое и точное присвоение заслуг. Это приводит к более стабильным оценкам градиента политики и улучшает эффективность обучения в каждом эпизоде, не увеличивая вычислительной сложности во время обучения или вывода. Мы проверяем наш подход через обширные эксперименты на различных размерах моделей и задачах, включая резюмирование текста, генерацию диалогов, вопросно-ответные системы и синтез программ. Наш метод достигает существенного улучшения производительности по сравнению с обычным RLHF, с приростом производительности до 30% в резюмировании текста и генерации кода, 18% в диалогах и 8% в задачах вопросно-ответной системы. Заметно, что наш подход достигает паритета с обычным RLHF в 1,7-2 раза быстрее в терминах времени обучения и продолжает превосходить его с дальнейшим обучением. Мы сделаем наш код и данные общедоступными по адресу https://github.com/ernie-research/MA-RLHF.
Модели длинного контекста (LCLM), отличающиеся обширным контекстным окном, становятся все более популярными. Тем временем многие бенчмарки с длинным контекстом представляют сложные задачи, с которыми даже самые передовые LCLM имеют трудности. Однако источники различных сложных задач с длинным контекстом редко изучались. Для заполнения этого пробела мы проводим эксперименты, указывающие, что их сложность в основном обусловлена двумя основными проблемами: "множественный поиск", требующий одновременного поиска нескольких элементов, и "логический поиск", который предполагает логическое суждение в рамках критериев поиска. Эти две проблемы, казалось бы, простые, на самом деле превышают возможности LCLM, поскольку они доказаны быть гипер-многоэтапными (требующими многочисленных шагов для решения) по своей природе. Это открытие может объяснить, почему LLM испытывают затруднения с более сложными задачами длинного контекста, предоставляя более точную перспективу для переосмысления решений для них.
В генеративном моделировании токенизация упрощает сложные данные до компактных, структурированных представлений, создавая более эффективное, обучаемое пространство. Для высокоразмерных визуальных данных она уменьшает избыточность и акцентирует ключевые особенности для генерации высокого качества. Существующие методы визуальной токенизации основаны на традиционной структуре автоэнкодера, где кодировщик сжимает данные в латентные представления, а декодер восстанавливает исходный ввод. В данной работе мы предлагаем новую перспективу, предлагая декодирование в виде удаления шума, переходя от одношаговой реконструкции к итеративному уточнению. Конкретно, мы заменяем декодер диффузионным процессом, который итеративно улучшает шум для восстановления исходного изображения, управляемый латентами, предоставленными кодировщиком. Мы оцениваем наш подход, оценивая как восстановление (rFID), так и качество генерации (FID), сравнивая его с передовым подходом автоэнкодирования. Мы надеемся, что данная работа предлагает новые идеи по интеграции итеративной генерации и автоэнкодирования для улучшения сжатия и генерации.
Последовательности событий, характеризующиеся нерегулярными интервалами выборки и смесью категориальных и числовых признаков, являются распространенными структурами данных в различных областях реального мира, таких как здравоохранение, финансы и журналы взаимодействия пользователей. Несмотря на прогресс в методах моделирования временных данных, не существует стандартизированных бенчмарков для оценки их производительности на последовательностях событий. Это затрудняет сравнение результатов между различными статьями из-за различных протоколов оценки, что может ввести в заблуждение относительно прогресса в этой области. Мы представляем EBES, комплексный инструмент бенчмаркинга с стандартизированными сценариями и протоколами оценки, сосредоточенный на проблемах регрессии и классификации с целями на уровне последовательности. Наша библиотека упрощает бенчмаркинг, добавление наборов данных и интеграцию методов через унифицированный интерфейс. Она включает новый синтетический набор данных и предоставляет предварительно обработанные наборы данных из реального мира, включая самый крупный общедоступный банковский набор данных. Наши результаты предоставляют глубокий анализ наборов данных, выявляя некоторые из них как непригодные для сравнения моделей. Мы исследуем важность моделирования временных и последовательных компонентов, а также устойчивость и масштабируемость моделей. Эти результаты выделяют потенциальные направления для будущих исследований. Наша цель бенчмаркинга - облегчить воспроизводимое исследование, ускорить прогресс и увеличить влияние на реальный мир.
Видео-большие языковые модели (Video-LLMs) продемонстрировали выдающиеся возможности в грубом понимании видео, однако испытывают трудности с точным временным выравниванием. В данной статье мы представляем Grounded-VideoLLM, новую видео-LLM, способную воспринимать и рассуждать о конкретных моментах видео в детализированном виде. Мы выявляем, что текущие видео-LLM имеют ограничения для точного понимания видео, поскольку им не хватает эффективного моделирования времени и представления меток времени. В свете этого мы улучшаем нашу модель, включая (1) дополнительный временной поток для кодирования отношений между кадрами и (2) дискретные временные токены, обогащенные конкретными знаниями о времени для представления меток времени. Для оптимизации обучения Grounded-VideoLLM мы используем многоступенчатую схему обучения, начиная с простых задач описания видео и постепенно вводя задачи временного выравнивания видео повышающейся сложности. Для дальнейшего улучшения способности Grounded-VideoLLM к временному рассуждению мы также создаем набор данных Grounded VideoQA с помощью автоматизированного процесса аннотирования. Обширные эксперименты показывают, что Grounded-VideoLLM не только превосходит в задачах точного выравнивания, таких как временное выравнивание предложений, плотное описание видео и Grounded VideoQA, но также обладает большим потенциалом как универсальный видео-ассистент для общего понимания видео.