Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области больших языковых моделей (LLM) позволили агентам на основе LLM успешно справляться с задачами интерактивного планирования. Однако, несмотря на их успехи, существующие подходы часто страдают от галлюцинаций при планировании и требуют переобучения для каждого нового агента. Для решения этих проблем мы предлагаем фреймворк Meta Plan Optimization (MPO), который улучшает способности агентов к планированию за счет прямого включения явных указаний. В отличие от предыдущих методов, которые полагаются на сложные знания, требующие значительных человеческих усилий или не обеспечивающие гарантии качества, MPO использует высокоуровневые общие указания через метапланы для помощи в планировании агентов и позволяет непрерывно оптимизировать метапланы на основе обратной связи от выполнения задач агентом. Наши эксперименты, проведенные на двух репрезентативных задачах, демонстрируют, что MPO значительно превосходит существующие базовые подходы. Более того, наш анализ показывает, что MPO предоставляет готовое решение, которое улучшает как эффективность выполнения задач, так и способность к обобщению в ранее не встречавшихся сценариях.
Крупные языковые модели (LLMs) продемонстрировали впечатляющие возможности в качестве автономных агентов, однако существующие бенчмарки либо сосредоточены на задачах для одного агента, либо ограничены узкими областями, не учитывая динамику координации и конкуренции между несколькими агентами. В данной статье мы представляем MultiAgentBench — всеобъемлющий бенчмарк, разработанный для оценки многоагентных систем на основе LLM в разнообразных интерактивных сценариях. Наша структура измеряет не только выполнение задач, но и качество сотрудничества и конкуренции с использованием новых ключевых показателей эффективности, основанных на этапах. Кроме того, мы оцениваем различные протоколы координации (включая звездообразную, цепочку, дерево и графовую топологии) и инновационные стратегии, такие как групповое обсуждение и когнитивное планирование. Примечательно, что gpt-4o-mini достигает наивысшего среднего балла за выполнение задач, графовая структура показывает наилучшие результаты среди протоколов координации в исследовательском сценарии, а когнитивное планирование повышает уровень достижения этапов на 3%. Код и наборы данных доступны по адресу https://github.com/MultiagentBench/MARBLE.
Распространение дезинформации, усугубляемое крупными языковыми моделями (LLM), такими как GPT и Gemini, требует надежных решений для проверки фактов, особенно для малоресурсных языков, таких как вьетнамский. Существующие методы сталкиваются с трудностями из-за семантической неоднозначности, омонимов и сложных лингвистических структур, часто жертвуя точностью ради эффективности. Мы представляем SemViQA — новый фреймворк для проверки фактов на вьетнамском языке, который объединяет семантический поиск доказательств (SER) и двухэтапную классификацию вердиктов (TVC). Наш подход балансирует между точностью и скоростью, достигая передовых результатов с 78,97% строгой точности на ISE-DSC01 и 80,82% на ViWikiFC, занимая первое место в UIT Data Science Challenge. Кроме того, SemViQA Faster увеличивает скорость вывода в 7 раз, сохраняя конкурентоспособную точность. SemViQA устанавливает новый стандарт для проверки фактов на вьетнамском языке, способствуя борьбе с дезинформацией. Исходный код доступен по адресу: https://github.com/DAVID-NGUYEN-S16/SemViQA.
В данной статье мы представляем всесторонний анализ влияния крупных языковых моделей (LLM) на Википедию, исследуя эволюцию Википедии на основе существующих данных и используя симуляции для изучения потенциальных рисков. Мы начинаем с анализа просмотров страниц и содержания статей, чтобы изучить недавние изменения в Википедии и оценить влияние LLM. Затем мы оцениваем, как LLM влияют на различные задачи обработки естественного языка (NLP), связанные с Википедией, включая машинный перевод и генерацию с использованием поискового усиления (RAG). Наши результаты и данные симуляций показывают, что статьи Википедии подверглись влиянию LLM, с воздействием примерно 1%-2% в определенных категориях. Если эталон машинного перевода, основанный на Википедии, подвергнется влиянию LLM, оценки моделей могут быть завышены, а сравнительные результаты между моделями также могут измениться. Более того, эффективность RAG может снизиться, если база знаний будет загрязнена контентом, созданным LLM. Хотя LLM еще не полностью изменили языковые и структурные знания Википедии, мы считаем, что наши эмпирические результаты указывают на необходимость тщательного рассмотрения потенциальных будущих рисков.
Мы представляем LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) — фреймворк, который позволяет крупным языковым моделям автономно улучшать свои способности к решению задач через самообучение, рекурсивно генерируя и решая постепенно упрощающиеся варианты сложных проблем. В отличие от предыдущих подходов, требующих тщательно отобранных наборов данных или обратной связи от человека, LADDER использует собственные возможности модели для создания более простых вариантов вопросов. Мы демонстрируем эффективность LADDER в области математического интегрирования, повышая точность модели Llama 3.2 3B с 1% до 82% на задачах уровня бакалавриата и позволяя модели Qwen2.5 7B Deepseek-R1 Distilled достичь 73% на квалификационном экзамене MIT Integration Bee. Мы также представляем TTRL (Test-Time Reinforcement Learning), где выполняем обучение с подкреплением на вариантах тестовых задач во время вывода. TTRL позволяет модели Qwen2.5 7B Deepseek-R1 Distilled достичь рекордного результата в 90% на квалификационном экзамене MIT Integration Bee, превосходя производительность OpenAI o1. Эти результаты показывают, как стратегическое самообучение может достичь значительного улучшения возможностей без необходимости масштабирования архитектуры или участия человека.
Крупные языковые модели (LLM) демонстрируют галлюцинации (т.е. недостоверную или бессмысленную информацию) при использовании в качестве ИИ-ассистентов в различных областях. Поскольку галлюцинации всегда сопровождаются достоверным содержанием в ответах LLM, предыдущие методы выравнивания фактической точности, основанные на обучении с предпочтениями на уровне ответов, неизбежно вносили шум в процесс обучения. В связи с этим, в данной статье предлагается метод тонкого выравнивания фактической точности на основе Direct Preference Optimization (DPO), называемый Mask-DPO. Включая фактическую точность на уровне предложений в качестве маскирующих сигналов, Mask-DPO обучается только на фактуально верных предложениях в предпочитаемых образцах и предотвращает штраф за достоверное содержание в непредпочитаемых образцах, что устраняет неоднозначность в обучении с предпочтениями. Результаты многочисленных экспериментов показывают, что Mask-DPO может значительно улучшить фактическую точность ответов LLM на вопросы как из внутридоменных, так и из внедоменных наборов данных, даже если эти вопросы и соответствующие темы не встречались во время обучения. Обучившись только на тренировочном наборе ANAH, показатель Llama3.1-8B-Instruct на тестовом наборе ANAH улучшился с 49,19% до 77,53%, превзойдя даже показатель Llama3.1-70B-Instruct (53,44%), в то время как его FactScore на внедоменном наборе данных Biography также улучшился с 30,29% до 39,39%. Мы дополнительно исследуем свойство обобщения Mask-DPO, используя различные стратегии масштабирования обучающих выборок, и обнаруживаем, что увеличение количества тем в наборе данных более эффективно, чем увеличение количества вопросов. Мы предлагаем гипотезу о том, что делает выравнивание фактической точности с LLM, обсуждаем последствия этого явления и проводим эксперименты для проверки этой гипотезы. Мы надеемся, что предложенный метод и полученные результаты послужат основой для будущих исследований в области масштабирования выравнивания фактической точности.
Недавние достижения в области больших языковых моделей (LLM) сосредоточены на создании ответов, которые соответствуют ожиданиям людей и согласуются с общими ценностями — процесс, получивший название "согласование" (alignment). Однако согласование LLM остается сложной задачей из-за присущего разрыва между сложностью человеческих ценностей и узким характером технологических подходов, разработанных для их учета. Современные методы согласования часто приводят к неверно определенным целям, что отражает более широкую проблему неполных контрактов — невозможность создания контракта между разработчиком модели и самой моделью, который учитывал бы каждый сценарий в согласовании LLM. В этой статье мы утверждаем, что улучшение согласования LLM требует включения идей из социальных, экономических и контрактных рамок согласования, и обсуждаем потенциальные решения, заимствованные из этих областей. Учитывая роль неопределенности в рамках социального согласования, мы исследуем, как она проявляется в согласовании LLM. Завершая обсуждение, мы предлагаем альтернативный взгляд на согласование LLM, рассматривая недостаточно определенный характер его целей как возможность, а не как необходимость их совершенствования. Помимо технических улучшений в согласовании LLM, мы обсуждаем необходимость разработки интерфейсов для участия в процессе согласования.
Адаптация генеративных моделей к конкретным доменам представляет собой эффективное решение для удовлетворения специализированных требований. Однако адаптация к некоторым сложным доменам остается сложной задачей, особенно когда эти домены требуют значительного объема парных данных для захвата целевых распределений. Поскольку непарные данные из одной модальности, такие как визуальные или текстовые, более доступны, мы используем двунаправленные отображения между визуальными и текстовыми данными, изученные унифицированной генеративной моделью, чтобы обеспечить обучение на непарных данных для адаптации к домену. В частности, мы предлагаем DoraCycle, который интегрирует два мультимодальных цикла: текст-изображение-текст и изображение-текст-изображение. Модель оптимизируется с помощью кросс-энтропийной потери, вычисленной на конечных точках цикла, где обе конечные точки принадлежат одной модальности. Это способствует саморазвитию модели без необходимости использования аннотированных пар текст-изображение. Экспериментальные результаты показывают, что для задач, не зависящих от парных знаний, таких как стилизация, DoraCycle может эффективно адаптировать унифицированную модель, используя только непарные данные. Для задач, связанных с новыми парными знаниями, такими как конкретные идентичности, комбинация небольшого набора парных примеров изображение-текст и более масштабных непарных данных достаточна для эффективной адаптации, ориентированной на домен. Код будет опубликован по адресу https://github.com/showlab/DoraCycle.
Параллелизм по конвейеру (Pipeline Parallelism, PP) широко используется для обучения больших языковых моделей (LLM), однако его масштабируемость часто ограничивается высоким потреблением памяти для активаций, поскольку количество одновременно обрабатываемых микропакетов увеличивается с ростом степени PP. В данной работе мы сосредоточились на решении этой проблемы, используя недостаточно изученную стратегию выгрузки памяти в PP. В результате эмпирического исследования мы обнаружили, что в большинстве стандартных конфигураций по крайней мере половина, а потенциально и все активации могут быть выгружены с незначительными накладными расходами. В случаях, когда полная выгрузка невозможна, мы предлагаем новую стратегию избирательной выгрузки, которая снижает пиковое потребление памяти для активаций лучше, чем линейно. Кроме того, мы интегрируем выгрузку памяти с другими методами, чтобы совместно учитывать общую пропускную способность и ограничения памяти. Наши эксперименты подтверждают, что потребление памяти для активаций на одно устройство эффективно снижается с увеличением общего количества этапов, что делает PP более предпочтительной альтернативой, чем TP, обеспечивая ускорение до 19\% при еще меньшем потреблении памяти. Реализация доступна в открытом доступе по адресу https://github.com/sail-sg/zero-bubble-pipeline-parallelism{этот URL}.
Хотя обучение с подкреплением на основе человеческой обратной связи (RLHF) стало основным методом управления выводами языковых моделей, оно страдает от высоких вычислительных затрат и нестабильности обучения. Управляемое декодирование, особенно методы, основанные на ценностях, предлагает экономичную альтернативу, позволяя контролировать выводы без необходимости переобучения моделей. Однако точность функции ценности имеет решающее значение для ценностно-управляемого декодирования, так как неточности могут привести к неоптимальному принятию решений и ухудшению производительности. Существующие методы сталкиваются с трудностями в точной оценке оптимальной функции ценности, что приводит к менее эффективному управлению. Мы предлагаем Итеративную оптимизацию функции ценности — новый подход, который устраняет эти ограничения за счет двух ключевых компонентов: оценки ценности методом Монте-Карло, которая снижает дисперсию оценки за счет исследования разнообразных траекторий, и итеративной оптимизации на основе политик, которая постепенно улучшает оценку ценности за счет сбора траекторий от ценностно-управляемых политик. Многочисленные эксперименты в областях суммаризации текста, многократного диалога и выполнения инструкций демонстрируют эффективность подходов, основанных на ценностно-управляемом декодировании, для согласования языковых моделей. Эти подходы не только обеспечивают согласование, но и значительно снижают вычислительные затраты, используя принципиальную оптимизацию функции ценности для эффективного и результативного управления.
Унифицированная модель видео и действий обладает значительным потенциалом для робототехники, где видео предоставляют богатую информацию о сцене для прогнозирования действий, а действия предоставляют динамическую информацию для прогнозирования видео. Однако эффективное объединение генерации видео и прогнозирования действий остается сложной задачей, и современные методы, основанные на генерации видео, не могут сравниться с прямым обучением политик по точности действий и скорости вывода. Чтобы преодолеть этот разрыв, мы представляем Унифицированную модель видео и действий (UVA), которая совместно оптимизирует прогнозирование видео и действий для достижения высокой точности и эффективного вывода действий. Ключевым моментом является изучение совместного латентного представления видео и действий и разделение декодирования видео и действий. Совместное латентное представление связывает визуальную и деятельностную области, эффективно моделируя взаимосвязь между последовательностями видео и действий. В то же время разделенное декодирование, поддерживаемое двумя легковесными диффузионными головками, позволяет осуществлять высокоскоростной вывод действий, минуя генерацию видео во время вывода. Такой унифицированный фреймворк также обеспечивает многофункциональность благодаря обучению с маскированными входными данными. Избирательно маскируя действия или видео, одна модель может решать разнообразные задачи, выходящие за рамки обучения политик, такие как моделирование прямой и обратной динамики и генерация видео. В ходе обширного набора экспериментов мы демонстрируем, что UVA может служить универсальным решением для широкого спектра задач робототехники, таких как обучение политик, прогнозирование прямой/обратной динамики и видео наблюдений, не уступая по производительности методам, разработанным для конкретных приложений. Результаты лучше всего просматривать на https://unified-video-action-model.github.io/.
Диффузионные модели достигли значительных успехов в различных задачах генерации изображений. Однако их производительность заметно снижается при создании изображений с разрешением, превышающим то, что использовалось в период обучения. Несмотря на существование множества методов для получения изображений высокого разрешения, они либо страдают от неэффективности, либо ограничены сложными операциями. В данной статье мы предлагаем RectifiedHR — эффективное и простое решение для генерации изображений высокого разрешения без необходимости дополнительного обучения. В частности, мы представляем стратегию обновления шума, которая теоретически требует всего несколько строк кода для раскрытия способности модели генерировать изображения высокого разрешения и повышения эффективности. Кроме того, мы впервые наблюдаем явление затухания энергии, которое может вызывать размытость изображений в процессе генерации высокого разрешения. Для решения этой проблемы мы предлагаем стратегию коррекции энергии, где модификация гиперпараметров классификатора без учителя эффективно улучшает качество генерации. Наш метод полностью не требует дополнительного обучения и отличается простой логикой реализации. Благодаря обширным сравнениям с множеством базовых методов, наш RectifiedHR демонстрирует превосходную эффективность и производительность.
Последние достижения в области больших языковых моделей (LLM) привели к разработке интеллектуальных агентов на основе LLM, способных взаимодействовать с графическими пользовательскими интерфейсами (GUI). Эти агенты демонстрируют высокий уровень рассуждений и адаптивности, что позволяет им выполнять сложные задачи, которые традиционно требовали предопределенных правил. Однако зависимость от пошагового рассуждения в агентах на основе LLM часто приводит к неэффективности, особенно при выполнении рутинных задач. В то же время традиционные системы, основанные на правилах, превосходят по эффективности, но им не хватает интеллекта и гибкости для адаптации к новым сценариям. Для решения этой проблемы мы предлагаем новую эволюционную архитектуру для GUI-агентов, которая повышает операционную эффективность, сохраняя при этом интеллект и гибкость. Наш подход включает механизм памяти, который записывает историю выполнения задач агентом. Анализируя эту историю, агент выявляет повторяющиеся последовательности действий и развивает высокоуровневые действия, которые выступают в качестве сокращений, заменяя эти низкоуровневые операции и повышая эффективность. Это позволяет агенту сосредоточиться на задачах, требующих более сложного рассуждения, упрощая при этом рутинные действия. Результаты экспериментов на нескольких эталонных задачах показывают, что наш подход значительно превосходит существующие методы как по эффективности, так и по точности. Код будет открыт для поддержки дальнейших исследований.
Сбор данных о вознаграждениях за выполнение задач или демонстраций, выполненных людьми, для многошаговых задач, требующих рассуждений, часто оказывается слишком затратным и трудоемким, особенно в интерактивных областях, таких как веб-задачи. Чтобы устранить это узкое место, мы представляем метод самообучаемого прогнозирования (self-taught lookahead) — самообучаемый подход, который использует динамику переходов между состояниями для обучения модели оценки, способной эффективно направлять поиск, управляемый языковой моделью. Мы обнаружили, что модели оценки среднего размера (8 миллиардов параметров) с открытыми весами, улучшенные с помощью самообучаемого прогнозирования, могут соответствовать производительности использования передовой языковой модели, такой как GPT-4, в качестве модели оценки. Более того, мы выяснили, что самообучаемое прогнозирование повышает производительность на 20% и снижает затраты в 37 раз по сравнению с предыдущими методами поиска по дереву на основе языковых моделей, не требуя при этом данных о вознаграждениях за выполнение задач.
Авторегрессионные языковые модели используют кэш ключей и значений (Key-Value, KV), который позволяет избежать повторного вычисления прошлых скрытых состояний в процессе генерации, что ускоряет работу. По мере увеличения размеров моделей и длин контекста, KV-кэш становится значительным узким местом в памяти, что требует применения методов сжатия, ограничивающих его размер во время генерации. В данной работе мы обнаруживаем удивительные свойства векторов запросов (Query, Q) и ключей (Key, K), которые позволяют эффективно аппроксимировать оценки внимания без вычисления карт внимания. Мы предлагаем Q-Filters, метод сжатия KV-кэша, не требующий обучения, который отфильтровывает менее важные пары ключ-значение на основе одного контекстно-независимого проектирования. В отличие от многих альтернатив, Q-Filters совместим с FlashAttention, так как не требует прямого доступа к весам внимания. Экспериментальные результаты в условиях длинного контекста показывают, что Q-Filters конкурирует с методами сжатия на основе внимания, такими как SnapKV, в задачах поиска, при этом стабильно превосходя эффективные схемы сжатия, такие как Streaming-LLM, в задачах генерации. Примечательно, что Q-Filters достигает 99% точности в задаче "иголка в стоге сена" при уровне сжатия x32, одновременно уменьшая падение перплексии генерации текста до 65% по сравнению с Streaming-LLM.
Крупные языковые модели (LLM) в роли агентов продемонстрировали выдающиеся способности к обобщению в задачах, охватывающих несколько доменов. Существующие подходы к настройке агентов обычно используют контролируемое дообучение на полных траекториях экспертов. Однако клонирование поведения на основе полных траекторий может привести к внесению экспертных предубеждений и снижению обобщающей способности для состояний, не охваченных экспертными данными. Кроме того, ключевые этапы, такие как планирование, сложные рассуждения для промежуточных подзадач и стратегическое принятие решений, имеют решающее значение для успеха агентов, поэтому обучение этим этапам является ключом к улучшению LLM-агентов. Для более эффективной и экономичной настройки агентов мы предлагаем метод ATLaS, который идентифицирует ключевые этапы в траекториях экспертов и дообучает LLM исключительно на этих этапах с сокращением затрат. Сосредоточив внимание обучения на нескольких ключевых этапах, наш метод снижает риск переобучения на полных траекториях и способствует обобщению в различных средах и задачах. В обширных экспериментах LLM, дообученная только на 30% ключевых этапов, выбранных ATLaS, превосходит LLM, дообученную на всех этапах, а также недавние открытые LLM-агенты. ATLaS сохраняет и улучшает базовые навыки LLM в качестве универсальных агентов, взаимодействующих с разнообразными средами.
Универсальные модели достигли значительных успехов как в языковых, так и в задачах, связанных с обработкой изображений и текста, демонстрируя потенциал унифицированного моделирования. Однако эффективная интеграция задач детального восприятия, таких как обнаружение и сегментация, в эти модели остается серьезной проблемой. Это связано в первую очередь с тем, что такие задачи часто зависят от специфических архитектур и решений, что усложняет процесс моделирования. Для решения этой проблемы мы представляем \ours — фреймворк, который унифицирует задачи детального визуального восприятия через открытый языковой интерфейс. Преобразуя все цели восприятия в языковое пространство, \ours объединяет задачи обнаружения на уровне объектов, сегментации на уровне пикселей и задачи, связанные с обработкой изображений и текста, в единую модель. Кроме того, мы предлагаем новый подход к извлечению вложений, который полностью опирается на языковой интерфейс для поддержки задач сегментации. Наш фреймворк устраняет разрыв между задачами детального восприятия и обработки изображений и текста, значительно упрощая архитектурный дизайн и стратегии обучения, при этом достигая сопоставимых или превосходящих результатов по сравнению с методами, использующими сложные специфические решения. После многозадачного обучения на пяти стандартных наборах данных для визуального восприятия, \ours превосходит предыдущие лучшие универсальные модели на 12.3 mAP в задаче сегментации экземпляров на COCO и на 3.3 mIoU в задаче семантической сегментации на ADE20K. Более того, наш метод легко интегрируется с существующими MLLM, эффективно сочетая возможности детального восприятия с их продвинутыми языковыми способностями, что позволяет решать более сложные задачи, такие как сегментация с рассуждением. Код и модели будут доступны публично.
Спекулятивная выборка стала важной техникой для ускорения авторегрессивного процесса генерации больших языковых моделей (LLM) за счет использования механизма "черновик-затем-проверка" для создания нескольких токенов за один прямой проход. Хотя современные методы спекулятивной выборки используют только один слой и голову языкового моделирования (LM) в качестве черновой модели для достижения впечатляющего сжатия слоев, их эффективность значительно снижается для LLM с большим словарным запасом, таких как Llama-3-8B с 128 тысячами токенов. Для решения этой проблемы мы представляем FR-Spec — частотно-ранжированную структуру спекулятивной выборки, которая оптимизирует выбор кандидатов для черновика за счет сжатия пространства словаря. Ограничивая поиск черновика подмножеством токенов, упорядоченных по частоте, наш метод снижает вычислительную нагрузку на голову LM на 75%, сохраняя эквивалентность итогового распределения выходных данных. Эксперименты на нескольких наборах данных демонстрируют среднее ускорение в 1,12 раза по сравнению с современным методом спекулятивной выборки EAGLE-2.
Оценка контента "текст-визуализация" основывается на двух ключевых аспектах: визуальное качество и соответствие. Хотя значительный прогресс был достигнут в разработке объективных моделей для оценки этих параметров, производительность таких моделей в значительной степени зависит от масштаба и качества аннотаций, выполненных людьми. Согласно Закону масштабирования, увеличение количества экземпляров, аннотированных людьми, следует предсказуемой закономерности, которая повышает производительность моделей оценки. Поэтому мы представляем всеобъемлющий набор данных, предназначенный для оценки визуального качества и уровня соответствия для контента "текст-визуализация" (Q-EVAL-100K), включающий крупнейшую коллекцию оценок Mean Opinion Scores (MOS), аннотированных людьми, для упомянутых двух аспектов. Набор данных Q-EVAL-100K охватывает как модели "текст-изображение", так и модели "текст-видео", с 960K человеческих аннотаций, специально сосредоточенных на визуальном качестве и соответствии для 100K экземпляров (60K изображений и 40K видео). Используя этот набор данных с контекстным промптом, мы предлагаем Q-Eval-Score, унифицированную модель, способную оценивать как визуальное качество, так и соответствие, с особыми улучшениями для обработки соответствия длинных текстовых промптов. Результаты экспериментов показывают, что предложенная Q-Eval-Score демонстрирует превосходную производительность как по визуальному качеству, так и по соответствию, с сильными возможностями обобщения на других бенчмарках. Эти результаты подчеркивают значительную ценность набора данных Q-EVAL-100K. Данные и коды будут доступны по адресу https://github.com/zzc-1998/Q-Eval.
Обучение на основе предпочтений улучшает Code LLM, выходя за рамки контролируемого тонкого настройки, за счет использования сравнений относительного качества. Существующие методы формируют пары предпочтений из кандидатов на основе успешности тестовых случаев, рассматривая образец с более высокой долей прохождения как положительный, а с более низкой — как отрицательный. Однако этот подход не выявляет конкретные ошибки в коде, что препятствует обучению модели более информативным шаблонам исправления ошибок, поскольку согласование неудачного кода в целом не обладает необходимой детализацией для выявления значимых связей между ошибками и их исправлением. Для решения этих проблем мы предлагаем IterPref — новый фреймворк согласования предпочтений, который имитирует итеративную отладку, выполняемую человеком, для улучшения Code LLM. IterPref явно определяет области ошибок и согласует соответствующие токены с помощью адаптированного алгоритма DPO. Для создания информативных пар мы представляем набор данных CodeFlow, где образцы итеративно улучшаются до прохождения тестов, а изменения фиксируют исправления ошибок. Многочисленные эксперименты показывают, что разнообразные Code LLM, оснащенные IterPref, достигают значительного улучшения производительности в генерации кода и справляются с более сложными задачами, такими как BigCodeBench. Глубокий анализ показывает, что IterPref приводит к меньшему количеству ошибок. Наш код и данные будут общедоступны.
В обучении представлений равномерность (uniformity) относится к равномерному распределению признаков в латентном пространстве (например, на единичной гиперсфере). Предыдущие исследования показали, что улучшение равномерности способствует обучению недостаточно представленных классов. Однако большинство предыдущих работ было сосредоточено на задачах классификации; пространство представлений для несбалансированной регрессии остаётся малоизученным. Методы, основанные на классификации, не подходят для задач регрессии, поскольку они группируют признаки в отдельные кластеры, не учитывая непрерывную и упорядоченную природу, важную для регрессии. С геометрической точки зрения мы сосредоточились на обеспечении равномерности в латентном пространстве для несбалансированной регрессии с помощью двух ключевых функций потерь: охватывающей (enveloping) и однородности (homogeneity). Охватывающая функция потерь способствует равномерному распределению индуцированного следа на поверхности гиперсферы, в то время как функция потерь однородности обеспечивает гладкость, с равномерно распределёнными представлениями на постоянных интервалах. Наш метод интегрирует эти геометрические принципы в представления данных с помощью фреймворка Surrogate-driven Representation Learning (SRL). Эксперименты с реальными задачами регрессии и обучения операторов подчеркивают важность равномерности в несбалансированной регрессии и подтверждают эффективность наших геометрически обоснованных функций потерь.
Развитие ИИ в области вычислительной патологии требует наличия больших, высококачественных и разнообразных наборов данных, однако существующие публичные наборы данных часто ограничены в разнообразии органов, охвате классов или качестве аннотаций. Чтобы устранить этот пробел, мы представляем SPIDER (Supervised Pathology Image-DEscription Repository) — крупнейший публично доступный набор данных на уровне патчей, охватывающий несколько типов органов, включая кожу, колоректальную область и грудную клетку, с полным охватом классов для каждого органа. SPIDER предоставляет высококачественные аннотации, проверенные экспертами-патологами, и включает окружающие контекстные патчи, которые улучшают производительность классификации за счет предоставления пространственного контекста. Вместе с набором данных мы представляем базовые модели, обученные на SPIDER с использованием модели Hibou-L в качестве экстрактора признаков в сочетании с классификатором на основе механизма внимания. Эти модели демонстрируют передовые результаты в различных категориях тканей и служат надежными ориентирами для будущих исследований в области цифровой патологии. Помимо классификации патчей, модель позволяет быстро идентифицировать значимые области, количественно оценивать характеристики тканей и закладывает основу для мультимодальных подходов. Как набор данных, так и обученные модели находятся в открытом доступе для содействия исследованиям, воспроизводимости и развитию ИИ в патологии. Доступ к ним можно получить по адресу: https://github.com/HistAI/SPIDER
В последние годы универсальные визуальные базовые модели (VFMs) получают всё большее распространение, особенно в качестве кодировщиков изображений для популярных мультимодальных больших языковых моделей (MLLMs). Однако без семантически детализированного обучения эти модели всё ещё допускают фундаментальные ошибки прогнозирования в контексте задач, связанных с текстом и изображениями, таких как восприятие, понимание и рассуждение с изображениями, содержащими мелкий и плотный текст. Чтобы устранить этот пробел, мы разработали TokenOCR — первую визуальную базовую модель на уровне токенов, специально адаптированную для задач, связанных с текстом и изображениями, и предназначенную для поддержки различных традиционных приложений. Для облегчения предварительного обучения TokenOCR мы также создали высококачественный конвейер генерации данных, который формирует первый набор данных на уровне токенов для текста в изображениях, TokenIT, включающий 20 миллионов изображений и 1,8 миллиарда пар токен-маска. Кроме того, используя эту модель с исключительной способностью интерпретировать изображения как текст, мы легко заменяем предыдущие VFMs на TokenOCR для создания документно-ориентированной MLLM, TokenVL, предназначенной для задач понимания документов на основе вопросно-ответных систем (VQA). Наконец, многочисленные эксперименты подтверждают эффективность TokenOCR и TokenVL. Код, наборы данных и веса будут доступны по адресу https://token-family.github.io/TokenOCR_project.
Хотя достижения в области больших языковых моделей (LLM) значительно повысили качество синтетических текстовых данных в последние годы, синтез табличных данных получил относительно меньше внимания. Мы устраняем этот разрыв с помощью Tabby — простого, но мощного изменения стандартной архитектуры языковой модели Transformer, применяемого после обучения, что позволяет использовать её для синтеза табличных наборов данных. Tabby позволяет представлять различия между столбцами с использованием Gated Mixture-of-Experts, с наборами параметров, специфичными для каждого столбца. Эмпирически Tabby обеспечивает качество данных, близкое или равное качеству реальных данных. Сочетая нашу новую методику обучения LLM для таблиц, Plain, с Tabby, мы наблюдаем улучшение качества до 44% по сравнению с предыдущими методами. Мы также показываем, что Tabby выходит за рамки таблиц и применим к более общим структурированным данным, достигая паритета с реальными данными на наборе данных с вложенной структурой JSON.
В последние десятилетия нейробиологические и психологические исследования выявили прямые взаимосвязи между вкусовыми и слуховыми восприятиями. В данной статье исследуются мультимодальные генеративные модели, способные преобразовывать информацию о вкусе в музыку, основываясь на этих фундаментальных исследованиях. Мы предоставляем краткий обзор современных достижений в этой области, выделяя ключевые результаты и методологии. Представлен эксперимент, в котором используется доработанная версия генеративной модели музыки (MusicGEN) для создания музыкальных композиций на основе детальных описаний вкуса, предоставленных для каждого произведения. Результаты обнадеживают: согласно оценке участников (n=111), доработанная модель создает музыку, которая более последовательно отражает введенные описания вкуса по сравнению с не доработанной моделью. Это исследование представляет собой значительный шаг в понимании и разработке воплощенных взаимодействий между ИИ, звуком и вкусом, открывая новые возможности в области генеративного ИИ. Мы публикуем наш набор данных, код и предварительно обученную модель по адресу: https://osf.io/xs5jy/.
В данной статье представлен фреймворк Discrete-time Hybrid Automata Learning (DHAL), который использует обучение с подкреплением на основе политики для идентификации и выполнения переключения режимов без сегментации траекторий или обучения функции событий. Гибридные динамические системы, включающие непрерывное течение и дискретное переключение режимов, могут моделировать задачи робототехники, такие как передвижение шагающих роботов. Методы, основанные на моделях, обычно зависят от предопределенных походок, в то время как методы без моделей не обладают явными знаниями о переключении режимов. Современные подходы идентифицируют дискретные режимы через сегментацию перед регрессией непрерывного течения, однако обучение сложной динамике многомерных жестких тел без меток траекторий или сегментации остается сложной открытой проблемой. Наш подход включает бета-распределение политики и архитектуру с несколькими критиками для моделирования движений, управляемых контактами, что иллюстрируется сложной задачей катания на скейтборде четвероногого робота. Мы проверяем наш метод с помощью симуляций и реальных испытаний, демонстрируя устойчивую производительность в гибридных динамических системах.