Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем CASS — первый крупномасштабный набор данных и набор моделей для трансляции кода GPU между архитектурами, охватывающий как уровень исходного кода (CUDA ↔ HIP), так и уровень ассемблера (Nvidia SASS ↔ AMD RDNA3). Набор данных включает 70 тысяч проверенных пар кода для хоста и устройства, устраняя критический пробел в переносимости низкоуровневого кода GPU. Используя этот ресурс, мы обучаем семейство специализированных языковых моделей CASS, достигая точности 95% для трансляции исходного кода и 37,5% для трансляции ассемблера, что значительно превосходит коммерческие базовые решения, такие как GPT-4o, Claude и Hipify. Сгенерированный нами код соответствует нативной производительности в более чем 85% тестовых случаев, сохраняя поведение по времени выполнения и использованию памяти. Для строгой оценки мы представляем CASS-Bench — тщательно отобранный бенчмарк, охватывающий 16 областей GPU с эталонным выполнением. Все данные, модели и инструменты оценки выпущены в открытый доступ для стимулирования прогресса в инструментах компиляции GPU, бинарной совместимости и аппаратной трансляции с использованием LLM. Набор данных и бенчмарк доступны на https://huggingface.co/datasets/MBZUAI/cass, а код — на https://github.com/GustavoStahl/CASS.
Мы представляем Mutarjim — компактную, но мощную языковую модель для двустороннего перевода между арабским и английским языками. Хотя крупномасштабные языковые модели (LLM) продемонстрировали впечатляющие успехи в задачах обработки естественного языка, включая машинный перевод, меньшие модели также могут быть эффективны. Используя это понимание, мы разработали Mutarjim на основе Kuwain-1.5B — языковой модели, адаптированной для работы как с арабским, так и с английским языками. Несмотря на скромный размер, Mutarjim превосходит значительно более крупные модели на нескольких авторитетных бенчмарках благодаря оптимизированному двухэтапному подходу к обучению и тщательно отобранному высококачественному обучающему корпусу. Экспериментальные результаты показывают, что Mutarjim конкурирует с моделями, в 20 раз большими по размеру, при этом значительно снижая вычислительные затраты и требования к обучению. Мы также представляем Tarjama-25 — новый бенчмарк, разработанный для преодоления ограничений существующих наборов данных для оценки арабско-английского перевода, таких как узкая предметная область, короткая длина предложений и смещение в сторону английского языка. Tarjama-25 включает 5000 экспертно проверенных пар предложений и охватывает широкий спектр областей, предлагая более всестороннюю и сбалансированную систему оценки. Примечательно, что Mutarjim достигает наилучших результатов в задаче перевода с английского на арабский в Tarjama-25, превосходя даже значительно более крупные и проприетарные модели, такие как GPT-4o mini. Мы публикуем Tarjama-25 в открытом доступе для поддержки будущих исследований и улучшения оценки систем арабско-английского перевода.
Быстрое развитие крупных языковых моделей (LLM) и мультимодальных LLM (MLLM) исторически основывалось на масштабировании, ориентированном на модели, за счет увеличения количества параметров от миллионов до сотен миллиардов для достижения улучшений в производительности. Однако по мере приближения к аппаратным ограничениям на размер моделей основное вычислительное узкое место сместилось на квадратичную стоимость самовнимания (self-attention) при обработке длинных последовательностей токенов, что теперь обусловлено сверхдлинными текстовыми контекстами, изображениями высокого разрешения и продолжительными видео. В данной позиционной статье мы утверждаем, что фокус исследований в области эффективного ИИ смещается от сжатия, ориентированного на модели, к сжатию, ориентированному на данные. Мы рассматриваем сжатие токенов как новую границу, которая повышает эффективность ИИ за счет уменьшения количества токенов во время обучения или вывода модели. Проведя всесторонний анализ, мы сначала исследуем последние достижения в области ИИ с длинными контекстами в различных областях и устанавливаем единую математическую основу для существующих стратегий повышения эффективности моделей, демонстрируя, почему сжатие токенов представляет собой ключевой сдвиг парадигмы в решении проблемы накладных расходов, связанных с длинными контекстами. Затем мы систематически рассматриваем ландшафт исследований в области сжатия токенов, анализируя его фундаментальные преимущества и выделяя его убедительные достоинства в различных сценариях. Кроме того, мы проводим углубленный анализ текущих проблем в исследованиях по сжатию токенов и намечаем перспективные направления для будущих исследований. В конечном итоге наша работа направлена на то, чтобы предложить новый взгляд на эффективность ИИ, синтезировать существующие исследования и стимулировать инновационные разработки для решения вызовов, которые увеличивающиеся длины контекстов представляют для прогресса сообщества ИИ.
Предварительное обучение наделяет модели преобразования текста в изображение (T2I) обширными знаниями о мире, но этого часто недостаточно для достижения высокой эстетической качества и соответствия. Следовательно, контролируемая тонкая настройка (SFT) играет ключевую роль в дальнейшем улучшении. Однако её эффективность в значительной степени зависит от качества настраиваемого набора данных. Существующие публичные наборы данных для SFT часто ориентированы на узкие области (например, аниме или определённые художественные стили), а создание высококачественных универсальных наборов данных для SFT остаётся серьёзной проблемой. Современные методы отбора данных часто являются затратными и испытывают трудности с выявлением действительно значимых образцов. Эта проблема усугубляется дефицитом публичных универсальных наборов данных, поскольку ведущие модели часто полагаются на большие, проприетарные и плохо документированные внутренние данные, что затрудняет прогресс в более широких исследованиях. В данной статье представлена новая методология создания универсальных наборов данных для SFT, которая использует предварительно обученную генеративную модель в качестве инструмента для оценки наиболее значимых обучающих образцов. Мы применяем эту методологию для создания и публикации Alchemist — компактного (3 350 образцов), но чрезвычайно эффективного набора данных для SFT. Эксперименты показывают, что Alchemist существенно улучшает качество генерации пяти публичных моделей T2I, сохраняя при этом разнообразие и стиль. Кроме того, мы публикуем веса тонко настроенных моделей для общего доступа.
Крупные языковые модели демонстрируют высокие результаты в общих задачах, однако оценка их надежности в областях, требующих высокой логической точности, таких как финансы, право и здравоохранение, остается сложной задачей. Для решения этой проблемы мы представляем BizFinBench — первый бенчмарк, специально разработанный для оценки языковых моделей в реальных финансовых приложениях. BizFinBench включает 6 781 тщательно аннотированных запросов на китайском языке, охватывающих пять измерений: численные расчеты, логическое рассуждение, извлечение информации, распознавание прогнозов и ответы на вопросы на основе знаний, сгруппированных в девять детализированных категорий. Бенчмарк включает как объективные, так и субъективные метрики. Мы также представляем IteraJudge — новый метод оценки языковых моделей, который снижает предвзятость, когда модели используются в качестве оценщиков в объективных метриках. Мы протестировали 25 моделей, включая как проприетарные, так и открытые системы. Масштабные эксперименты показывают, что ни одна модель не доминирует во всех задачах. Наша оценка выявляет различные паттерны способностей: (1) В численных расчетах лидируют Claude-3.5-Sonnet (63.18) и DeepSeek-R1 (64.04), в то время как меньшие модели, такие как Qwen2.5-VL-3B (15.92), значительно отстают; (2) В логическом рассуждении доминируют проприетарные модели (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), а открытые модели отстают до 19.49 баллов; (3) В извлечении информации разброс результатов наибольший: DeepSeek-R1 набирает 71.46, а Qwen3-1.7B — 11.23; (4) В распознавании прогнозов вариативность минимальна, при этом лучшие модели набирают от 39.16 до 50.00. Мы обнаружили, что, хотя современные языковые модели успешно справляются с рутинными финансовыми запросами, они испытывают трудности в сложных сценариях, требующих межконцептуального рассуждения. BizFinBench предлагает строгий, ориентированный на бизнес бенчмарк для будущих исследований. Код и набор данных доступны по адресу https://github.com/HiThink-Research/BizFinBench.
Современные крупные языковые модели (LLM) обычно используют фиксированную стратегию рассуждений, будь то простая или сложная, для всех вопросов, независимо от их сложности. Это игнорирование вариативности задач и сложности процесса рассуждений приводит к дисбалансу между производительностью и эффективностью. Существующие методы пытаются реализовать переключение между системами быстрого и медленного мышления без дополнительного обучения для решения задач различной сложности, но ограничиваются грубыми настройками стратегий на уровне решений. Чтобы решить эту проблему, мы предлагаем новую парадигму рассуждений: Переключение режимов мышления с адаптацией на уровне процесса (PATS), которая позволяет LLM динамически корректировать стратегию рассуждений в зависимости от сложности каждого шага, оптимизируя баланс между точностью и вычислительной эффективностью. Наш подход интегрирует Модели вознаграждения на уровне процесса (PRM) с Поиском по лучу, включая прогрессивное переключение режимов и механизмы штрафов за ошибочные шаги. Эксперименты на различных математических тестах демонстрируют, что наш метод достигает высокой точности при умеренном использовании токенов. Это исследование подчеркивает важность адаптации стратегий рассуждений на уровне процесса с учетом сложности, предлагая ценные инсайты для эффективного вывода в LLM.
Воплощенные агенты, использующие большие языковые модели (LLMs), продемонстрировали высокую производительность в задачах перестановки объектов в домашних условиях. Однако эти задачи в основном сосредоточены на одношаговых взаимодействиях с упрощенными инструкциями, что не отражает в полной мере сложности предоставления значимой помощи пользователям. Для оказания персонализированной помощи воплощенные агенты должны понимать уникальную семантику, которую пользователи приписывают физическому миру (например, любимая чашка, утренний распорядок), используя историю предыдущих взаимодействий для интерпретации динамических инструкций в реальном мире. Тем не менее, эффективность воплощенных агентов в использовании памяти для персонализированной помощи остается недостаточно изученной. Для устранения этого пробела мы представляем MEMENTO, фреймворк для оценки персонализированных воплощенных агентов, предназначенный для всестороннего анализа способностей использования памяти для предоставления персонализированной помощи. Наш фреймворк включает двухэтапный процесс оценки памяти, который позволяет количественно оценить влияние использования памяти на производительность задач. Этот процесс позволяет оценить понимание агентами персонализированных знаний в задачах перестановки объектов, сосредоточившись на их роли в интерпретации целей: (1) способность идентифицировать целевые объекты на основе личного значения (семантика объектов) и (2) способность выводить конфигурации объектов и местоположений на основе устойчивых пользовательских паттернов, таких как распорядки (пользовательские паттерны). Наши эксперименты с различными LLMs выявили значительные ограничения в использовании памяти, причем даже передовые модели, такие как GPT-4o, демонстрируют снижение производительности на 30,5%, когда требуется обращение к нескольким воспоминаниям, особенно в задачах, связанных с пользовательскими паттернами. Эти результаты, наряду с нашими подробными анализами и кейс-стадиями, предоставляют ценные инсайты для будущих исследований в разработке более эффективных персонализированных воплощенных агентов. Сайт проекта: https://connoriginal.github.io/MEMENTO
Хотя крупные модели рассуждений демонстрируют высокую производительность на сложных задачах, они не способны адаптировать использование токенов рассуждений в зависимости от сложности задачи. Это часто приводит к проблеме "избыточного мышления" — чрезмерного и ненужного рассуждения, — которая, хотя и может быть частично устранена вмешательством человека для контроля бюджета токенов, всё же фундаментально противоречит цели достижения полностью автономного ИИ. В данной работе мы предлагаем модель адаптивного рассуждения (Adaptive Reasoning Model, ARM), способную адаптивно выбирать подходящие форматы рассуждений в зависимости от задачи. Эти форматы включают три эффективных — прямой ответ (Direct Answer), краткая цепочка рассуждений (Short CoT) и код (Code) — а также более детализированный формат, длинная цепочка рассуждений (Long CoT). Для обучения ARM мы представляем Ada-GRPO, адаптацию метода оптимизации групповой относительной политики (Group Relative Policy Optimization, GRPO), которая устраняет проблему коллапса форматов в традиционном GRPO. Ada-GRPO позволяет ARM достичь высокой эффективности использования токенов, сокращая их количество в среднем на 30%, а в некоторых случаях до 70%, при этом сохраняя производительность, сопоставимую с моделью, использующей исключительно Long CoT. Более того, она не только повышает эффективность вывода за счёт сокращения генерации токенов, но и ускоряет обучение в 2 раза. Помимо режима по умолчанию (Adaptive Mode), ARM поддерживает два дополнительных режима рассуждений: 1) Инструктивно-управляемый режим (Instruction-Guided Mode), который позволяет пользователям явно указывать формат рассуждений с помощью специальных токенов — идеально, когда подходящий формат известен для группы задач. 2) Режим, управляемый консенсусом (Consensus-Guided Mode), который агрегирует результаты трёх эффективных форматов и прибегает к Long CoT в случае разногласий, отдавая приоритет производительности при более высоком использовании токенов.
Крупные языковые модели (LLM), такие как OpenAI o1 и DeepSeek R1, демонстрируют выдающиеся результаты в сложных задачах, таких как математика и программирование, благодаря обучению с подкреплением с проверяемыми наградами (RLVR). Однако они всё ещё испытывают трудности с решением головоломок, которые люди могут решать без специальных знаний. Мы представляем Enigmata — первый комплексный набор инструментов, разработанный для улучшения навыков LLM в решении головоломок. Он включает 36 задач, разделённых на семь категорий, каждая из которых содержит 1) генератор, создающий неограниченное количество примеров с контролируемой сложностью, и 2) основанный на правилах верификатор для автоматической оценки. Этот дизайн генератора и верификатора поддерживает масштабируемое многозадачное обучение с подкреплением, детальный анализ и бесшовную интеграцию RLVR. Мы также предлагаем Enigmata-Eval — строгий бенчмарк — и разрабатываем оптимизированные многозадачные стратегии RLVR. Наша обученная модель, Qwen2.5-32B-Enigmata, стабильно превосходит o3-mini-high и o1 на бенчмарках для решения головоломок, таких как Enigmata-Eval, ARC-AGI (32,8%) и ARC-AGI 2 (0,6%). Она также хорошо обобщает на внедоменные бенчмарки головоломок и математические задачи, с минимальными компромиссами в многозадачности. При обучении на более крупных моделях, таких как Seed1.5-Thinking (20 млрд активированных параметров и 200 млрд общих параметров), данные головоломок из Enigmata дополнительно повышают современные результаты в сложных математических и STEM-задачах, таких как AIME (2024–2025), BeyondAIME и GPQA (Diamond), демонстрируя преимущества обобщения Enigmata. Эта работа предлагает унифицированный и контролируемый фреймворк для развития логического мышления в LLM. Ресурсы этой работы доступны по адресу https://seed-enigmata.github.io.
Мы предлагаем новый подход к пониманию способностей крупных языковых моделей (LLM) к рассуждению через призму метаобучения. Концептуализируя траектории рассуждений как псевдоградиентные обновления параметров LLM, мы выявляем параллели между рассуждениями LLM и различными парадигмами метаобучения. Мы формализуем процесс обучения для задач рассуждения как настройку метаобучения, где каждый вопрос рассматривается как отдельная задача, а траектории рассуждений служат внутренним циклом оптимизации для адаптации параметров модели. После обучения на разнообразном наборе вопросов LLM развивает фундаментальные способности к рассуждению, которые могут обобщаться на ранее не встречавшиеся вопросы. Обширные эмпирические оценки подтверждают тесную связь между рассуждениями LLM и метаобучением, исследуя несколько вопросов, представляющих значительный интерес с точки зрения метаобучения. Наша работа не только углубляет понимание рассуждений LLM, но также предоставляет практические рекомендации для улучшения этих моделей с помощью проверенных методов метаобучения.
Крупные языковые модели достигли значительных успехов в задачах обработки естественного языка, где обучение с подкреплением играет ключевую роль в их адаптации к конкретным приложениям. Однако получение эталонных ответов для обучения языковых моделей в решении математических задач часто оказывается сложным, дорогостоящим, а иногда и невозможным. Данное исследование углубляется в использование формата и длины в качестве суррогатных сигналов для обучения языковых моделей решению математических задач, обходя необходимость в традиционных эталонных ответах. Наше исследование показывает, что функция вознаграждения, основанная исключительно на правильности формата, может привести к улучшению производительности, сопоставимому со стандартным алгоритмом GRPO на начальных этапах. Учитывая ограничения вознаграждений, основанных только на формате, на более поздних этапах мы добавляем вознаграждения, основанные на длине. Получившийся подход GRPO, использующий суррогатные сигналы формата и длины, не только соответствует, но и превосходит производительность стандартного алгоритма GRPO, полагающегося на эталонные ответы, в определенных сценариях, достигая точности 40,0% на AIME2024 с базовой моделью на 7 миллиардов параметров. Благодаря систематическому исследованию и экспериментам, данная работа не только предлагает практическое решение для обучения языковых моделей решению математических задач и снижения зависимости от сбора обширных эталонных данных, но и раскрывает суть успеха нашего подхода без использования меток: базовая модель подобна отличному ученику, который уже овладел математическими и логическими навыками, но плохо справляется с тестами — ей просто нужно выработать хорошие привычки ответов, чтобы достичь выдающихся результатов на экзаменах, другими словами, раскрыть уже имеющиеся у неё способности.
Крупные языковые модели (LLMs) часто демонстрируют сильные предубеждения, например, против женщин или в пользу числа 7. Мы исследуем, смогут ли LLMs выдавать менее предвзятые ответы, если им будет позволено наблюдать свои предыдущие ответы на тот же вопрос в многоходовом диалоге. Чтобы понять, какие типы вопросов провоцируют более предвзятые ответы, мы тестируем LLMs на предложенном нами наборе вопросов, охватывающих 9 тем и относящихся к трем типам: (1) Субъективные; (2) Случайные; и (3) Объективные. Интересно, что LLMs способны "самоисправляться" в многоходовом диалоге в ответ на вопросы, требующие случайного, непредвзятого ответа. Кроме того, мы предлагаем B-score — новый метрический показатель, который эффективно выявляет предубеждения в ответах на субъективные, случайные, простые и сложные вопросы. На наборах данных MMLU, HLE и CSQA использование B-score значительно повышает точность проверки ответов LLMs (т.е. принятие правильных ответов и отклонение неправильных) по сравнению с использованием вербализированных показателей уверенности или частоты одноходовых ответов. Код и данные доступны по адресу: https://b-score.github.io.
Обучение больших языковых моделей (LLMs) для сложных рассуждений с использованием обучения с подкреплением на основе проверяемых наград (RLVR) является эффективным, но ограничено зависимостью от дорогостоящего, предметно-ориентированного контроля. Мы исследуем обучение с подкреплением на основе внутренней обратной связи (RLIF) — подход, который позволяет LLMs обучаться на основе внутренних сигналов без внешних наград или размеченных данных. Мы предлагаем Intuitor, метод RLIF, который использует собственную уверенность модели, называемую самоуверенностью, в качестве единственного сигнала награды. Intuitor заменяет внешние награды в оптимизации групповой относительной политики (GRPO) на оценки самоуверенности, что позволяет полностью автономное обучение. Эксперименты показывают, что Intuitor соответствует производительности GRPO на математических тестах, одновременно демонстрируя превосходную обобщаемость на задачи за пределами предметной области, такие как генерация кода, без необходимости использования эталонных решений или тестовых случаев. Наши результаты показывают, что внутренние сигналы модели могут эффективно стимулировать обучение в различных областях, предлагая масштабируемую альтернативу RLVR для автономных систем ИИ, где проверяемые награды недоступны. Код доступен по адресу https://github.com/sunblaze-ucb/Intuitor.
Человеческие сигналы вознаграждения играют ключевую роль в согласовании генеративных моделей с предпочтениями людей, направляя как обучение, так и оценку на этапе вывода. Хотя крупные языковые модели (LLM), используемые в качестве прокси-оценщиков (например, LLM-as-a-Judge), значительно снижают затраты, связанные с ручной аннотацией, они обычно требуют обширных данных для обучения, специфичных для каждой модальности, и плохо обобщаются на разнообразные мультимодальные задачи. В данной работе мы предлагаем Flex-Judge — мультимодальную модель-оценщик, управляемую рассуждениями, которая использует минимальные текстовые данные для рассуждений, чтобы эффективно обобщать знания на множественные модальности и форматы оценки. Основная идея заключается в том, что структурированные текстовые объяснения рассуждений изначально кодируют обобщаемые шаблоны принятия решений, что позволяет эффективно переносить их на мультимодальные оценки, например, с изображениями или видео. Экспериментальные результаты показывают, что Flex-Judge, несмотря на обучение на значительно меньшем объеме текстовых данных, демонстрирует конкурентоспособную или превосходящую производительность по сравнению с современными коммерческими API и мультимодальными оценщиками, обученными на больших объемах данных. Особенно важно, что Flex-Judge демонстрирует широкое влияние в таких модальностях, как молекулы, где отсутствуют комплексные эталонные данные для оценки, подчеркивая его практическую ценность в областях с ограниченными ресурсами. Наш подход подчеркивает, что текстовый контроль на основе рассуждений является мощной и экономически эффективной альтернативой традиционным методам, требующим интенсивной аннотации, что существенно продвигает масштабируемую мультимодальную модель-оценщик.
Крупные языковые модели (LLM) демонстрируют потенциал в автоматизации генерации научных гипотез, однако существующие подходы в основном дают грубые гипотезы, лишенные критически важных методологических и экспериментальных деталей. Мы вводим и формально определяем новую задачу детализированного научного открытия гипотез, которая предполагает генерацию подробных, экспериментально применимых гипотез из грубых начальных исследовательских направлений. Мы формулируем это как задачу комбинаторной оптимизации и исследуем предельные возможности LLM в её решении при максимальном использовании. В частности, мы изучаем четыре фундаментальных вопроса: (1) как наилучшим образом использовать внутренние эвристики LLM для формулировки детализированной гипотезы, которую сама модель оценит как наиболее перспективную среди всех возможных гипотез, которые она может сгенерировать, основываясь на собственном внутреннем оценивании — тем самым определяя скрытый ландшафт вознаграждений в пространстве гипотез; (2) демонстрируют ли такие гипотезы, оцененные LLM как лучшие, более сильное соответствие с эталонными гипотезами; (3) приводит ли формирование ландшафта вознаграждений с использованием ансамбля разнообразных LLM схожей мощности к лучшим результатам, чем его определение с помощью повторяющихся экземпляров самой сильной LLM среди них; и (4) обеспечивает ли ансамбль идентичных LLM более надежный ландшафт вознаграждений, чем одна LLM. Для решения этих вопросов мы предлагаем иерархический метод поиска, который постепенно предлагает и интегрирует детали в гипотезу, переходя от общих концепций к конкретным экспериментальным конфигурациям. Мы показываем, что этот иерархический процесс сглаживает ландшафт вознаграждений и позволяет более эффективно проводить оптимизацию. Эмпирические оценки на новом эталоне экспертно аннотированных детализированных гипотез из недавней химической литературы показывают, что наш метод стабильно превосходит сильные базовые подходы.
Крупные языковые модели (LLM) достигли впечатляющих успехов, однако их растущие возможности также делают их уязвимыми для гибких атак, направленных на обход механизмов безопасности. Хотя многие существующие методы защиты сосредоточены на известных типах атак, более важно подготовить LLM к неизвестным атакам, которые могут возникнуть в процессе эксплуатации. Для решения этой проблемы мы предлагаем фреймворк для постоянного обеспечения безопасности, который позволяет LLM непрерывно адаптироваться к новым и развивающимся стратегиям обхода. Наш фреймворк включает соревновательную схему между двумя компонентами: Мета-Атакующим, обученным активно выявлять новые стратегии обхода, и Защитником, обученным противостоять им. Для эффективной инициализации Мета-Атакующего мы сначала используем API GPT-4o для извлечения ключевых идей из большого массива научных статей, связанных с обходом безопасности. В ходе итеративного обучения Мета-Атакующий первой итерации достигает 73% успешности атак (ASR) на RR и 57% переносимой ASR на LAT, используя только одношаговые атаки. В то же время Защитник постепенно повышает свою устойчивость и в конечном итоге снижает успешность Мета-Атакующего до всего 7%, что позволяет более безопасно и надежно использовать LLM в открытых средах. Код доступен по адресу https://github.com/sail-sg/LifelongSafetyAlignment.
Мультимодальные крупные языковые модели (MLLMs) недавно достигли значительного прогресса в визуальных задачах, включая семантическое понимание сцен и согласование текста с изображениями, причем варианты с поддержкой рассуждений улучшают производительность на сложных задачах, связанных с математикой и логикой. Однако их способность к задачам рассуждений, требующим детального визуального понимания, остается недостаточно оцененной. Чтобы устранить этот пробел, мы представляем ReasonMap — эталонный набор данных, предназначенный для оценки способностей MLLMs к детальному визуальному пониманию и пространственному рассуждению. ReasonMap включает высококачественные схемы транспорта из 30 городов в 13 странах и содержит 1008 пар вопросов и ответов, охватывающих два типа вопросов и три шаблона. Кроме того, мы разработали двухуровневую систему оценки, которая корректно оценивает правильность и качество ответов. Всесторонние оценки 15 популярных MLLMs, включая базовые и варианты с поддержкой рассуждений, выявили неожиданную закономерность: среди моделей с открытым исходным кодом базовые модели превосходят модели с поддержкой рассуждений, тогда как для моделей с закрытым исходным кодом наблюдается обратная тенденция. Кроме того, производительность, как правило, снижается, когда визуальные входные данные маскируются, что указывает на то, что, хотя MLLMs могут использовать предварительные знания для ответа на некоторые вопросы, задачи детального визуального рассуждения все же требуют подлинного визуального восприятия для достижения высокой производительности. Наше эталонное исследование предлагает новые взгляды на визуальное рассуждение и способствует изучению разрыва между моделями с открытым и закрытым исходным кодом.
Несмотря на доминирование языковых моделей, использующих только декодеры, энкодеры остаются критически важными для приложений с ограниченными ресурсами. Мы представляем ModernGBERT (134M, 1B) — полностью прозрачное семейство немецких моделей-энкодеров, обученных с нуля, включающее архитектурные инновации из ModernBERT. Чтобы оценить практические компромиссы при обучении энкодеров с нуля, мы также представляем LL\"aMmlein2Vec (120M, 1B, 7B) — семейство энкодеров, полученных из немецких моделей, использующих только декодеры, с помощью LLM2Vec. Мы тестируем все модели на задачах понимания естественного языка, создания текстовых эмбеддингов и рассуждений в длинных контекстах, что позволяет провести контролируемое сравнение между специализированными энкодерами и адаптированными декодерами. Наши результаты показывают, что ModernGBERT 1B превосходит предыдущие передовые немецкие энкодеры, а также энкодеры, адаптированные через LLM2Vec, как по производительности, так и по эффективности использования параметров. Все модели, обучающие данные, контрольные точки и код находятся в открытом доступе, что способствует развитию немецкой экосистемы NLP с помощью прозрачных и высокопроизводительных моделей-энкодеров.
Визуальное создание и понимание являются двумя глубоко взаимосвязанными аспектами человеческого интеллекта, однако в машинном обучении они традиционно рассматривались как отдельные задачи. В данной статье мы предлагаем Jodi — диффузионную модель, которая объединяет визуальное создание и понимание за счет совместного моделирования области изображений и множества областей меток. В частности, Jodi построена на основе линейного диффузионного трансформера с механизмом переключения ролей, что позволяет ей выполнять три специфических типа задач: (1) совместное создание, при котором модель одновременно генерирует изображения и несколько меток; (2) управляемое создание, при котором изображения генерируются на основе любой комбинации меток; и (3) восприятие изображений, при котором из заданного изображения одновременно предсказываются несколько меток. Кроме того, мы представляем набор данных Joint-1.6M, содержащий 200 000 высококачественных изображений, собранных из открытых источников, автоматически сгенерированные метки для 7 визуальных областей и подписи, созданные с помощью языковых моделей. Многочисленные эксперименты демонстрируют, что Jodi превосходно справляется как с задачами создания, так и с задачами понимания, а также проявляет высокую расширяемость для более широкого спектра визуальных областей. Код доступен по адресу https://github.com/VIPL-GENUN/Jodi.
По мере того как крупные языковые модели (LLM) становятся неотъемлемой частью рабочих процессов разработки программного обеспечения, их способность генерировать структурированные выходные данные приобретает критически важное значение. Мы представляем StructEval, комплексный бенчмарк для оценки возможностей LLM в создании как невизуализируемых (JSON, YAML, CSV), так и визуализируемых (HTML, React, SVG) структурированных форматов. В отличие от предыдущих бенчмарков, StructEval систематически оценивает структурную точность в различных форматах через две парадигмы: 1) задачи генерации, создающие структурированный вывод из текстовых запросов, и 2) задачи конвертации, преобразующие данные между структурированными форматами. Наш бенчмарк охватывает 18 форматов и 44 типа задач, включая новые метрики для оценки соответствия формату и структурной корректности. Результаты выявляют значительные пробелы в производительности: даже передовые модели, такие как o1-mini, достигают лишь среднего балла 75.58, а открытые альтернативы отстают примерно на 10 пунктов. Мы обнаружили, что задачи генерации сложнее задач конвертации, а создание корректного визуального контента труднее, чем генерация текстовых структур.
Находясь в 2025 году, на критическом этапе в стремлении к созданию Искусственного Общего Интеллекта (ИОИ), метод тонкой настройки с подкреплением (Reinforcement Fine-Tuning, RFT) продемонстрировал значительный потенциал в улучшении способности к рассуждению у крупных языковых моделей (Large Language Models, LLMs) и способствовал разработке передовых моделей искусственного интеллекта, таких как OpenAI-o1 и DeepSeek-R1. Более того, эффективное применение RFT для улучшения способности к рассуждению у мультимодальных крупных языковых моделей (Multimodal Large Language Models, MLLMs) привлекло широкое внимание сообщества. В этой позиционной статье мы утверждаем, что тонкая настройка с подкреплением усиливает способность к рассуждению у мультимодальных крупных языковых моделей. Для начала мы предоставляем подробное введение в базовые знания, с которыми должны быть знакомы исследователи, интересующиеся этой областью. Далее мы тщательно суммируем улучшения, которые RFT вносит в способность к рассуждению у MLLMs, в пять ключевых пунктов: разнообразие модальностей, разнообразие задач и областей, улучшенные алгоритмы обучения, обширные бенчмарки и развивающиеся инженерные фреймворки. Наконец, мы предлагаем пять перспективных направлений для будущих исследований, которые могут быть рассмотрены сообществом. Мы надеемся, что эта позиционная статья предоставит ценные идеи сообществу на этом важном этапе продвижения к ИОИ. Сводка работ по RFT для MLLMs доступна по ссылке: https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
Долгосрочное видео-аудио рассуждение и детальное понимание на уровне пикселей накладывают противоречивые требования на омнимодальные модели: плотное временное покрытие требует множества кадров низкого разрешения, тогда как точное заземление требует входных данных высокого разрешения. Мы решаем этот компромисс с помощью двухуровневой архитектуры: Глобальная система рассуждений выбирает информативные ключевые кадры и переформулирует задачу с низкими пространственными затратами, в то время как Система детального понимания выполняет заземление на уровне пикселей на выбранных фрагментах высокого разрешения. Поскольку «оптимальный» выбор ключевых кадров и их переформулировка являются неоднозначными и сложными для контроля, мы формулируем их как задачу обучения с подкреплением (RL) и представляем Omni-R1, сквозную RL-структуру, построенную на основе Group Relative Policy Optimization. Omni-R1 обучает Глобальную систему рассуждений через иерархические награды, полученные в результате онлайн-сотрудничества с Системой детального понимания, требуя всего одной эпохи RL на небольших частях задачи. Эксперименты на двух сложных бенчмарках, а именно Referring Audio-Visual Segmentation (RefAVS) и Reasoning Video Object Segmentation (REVOS), показывают, что Omni-R1 не только превосходит сильные контролируемые базовые модели, но и опережает специализированные современные модели, одновременно значительно улучшая обобщение вне домена и снижая мультимодальные галлюцинации. Наши результаты демонстрируют первое успешное применение RL к крупномасштабному омнимодальному рассуждению и указывают на масштабируемый путь к универсальным фундаментальным моделям.
Мы представляем REARANK, агента для переранжирования списков на основе крупной языковой модели (LLM), использующего рассуждения. REARANK явно применяет рассуждения перед переранжированием, что значительно улучшает как производительность, так и интерпретируемость. Используя обучение с подкреплением и аугментацию данных, REARANK достигает существенного улучшения по сравнению с базовыми моделями на популярных бенчмарках информационного поиска, при этом требуя всего 179 аннотированных образцов. Построенный на основе Qwen2.5-7B, наш REARANK-7B демонстрирует производительность, сопоставимую с GPT-4, как на внутридоменных, так и на внедоменных бенчмарках, и даже превосходит GPT-4 на бенчмарках BRIGHT, требующих интенсивных рассуждений. Эти результаты подчеркивают эффективность нашего подхода и показывают, как обучение с подкреплением может улучшить способности LLM к рассуждениям в задачах переранжирования.
Дискретная диффузия недавно стала перспективной парадигмой в моделировании дискретных данных. Однако существующие методы обычно полагаются на фиксированную матрицу переходов в процессе обучения, что не только ограничивает выразительность латентных представлений, являющуюся фундаментальным преимуществом вариационных методов, но и сужает общее пространство проектирования. Для устранения этих ограничений мы предлагаем Discrete Markov Bridge — новый фреймворк, специально разработанный для обучения дискретным представлениям. Наш подход основан на двух ключевых компонентах: обучении матриц и обучении оценок. Мы проводим строгий теоретический анализ, устанавливая формальные гарантии производительности для обучения матриц и доказывая сходимость всего фреймворка. Кроме того, мы анализируем пространственную сложность нашего метода, учитывая практические ограничения, выявленные в предыдущих исследованиях. Обширные эмпирические оценки подтверждают эффективность предложенного Discrete Markov Bridge, который достигает нижней границы доказательства (ELBO) 1.38 на наборе данных Text8, превосходя установленные базовые методы. Более того, предложенная модель демонстрирует конкурентоспособные результаты на наборе данных CIFAR-10, достигая показателей, сопоставимых с подходами, специфичными для генерации изображений.
Мы предлагаем нейрофизическую систему для интерактивного моделирования жидкостей в реальном времени. Традиционные методы, основанные на физике, хотя и точны, требуют значительных вычислительных ресурсов и страдают от проблем с задержками. Современные методы машинного обучения снижают вычислительные затраты, сохраняя точность, однако большинство из них по-прежнему не удовлетворяют требованиям к задержкам для использования в реальном времени и не поддерживают интерактивные приложения. Чтобы устранить этот разрыв, мы представляем новый гибридный метод, который объединяет численное моделирование, нейрофизику и генеративное управление. Наша нейрофизическая система одновременно стремится к низкой задержке моделирования и высокой физической точности, используя резервный механизм, основанный на классических численных решателях. Кроме того, мы разработали контроллер на основе диффузии, который обучается с использованием стратегии обратного моделирования для генерации внешних динамических силовых полей, управляющих жидкостью. Наша система демонстрирует устойчивую производительность в различных 2D/3D сценариях, типах материалов и взаимодействиях с препятствиями, достигая моделирования в реальном времени с высокой частотой кадров (задержка 11~29%) и позволяя управлять жидкостью с помощью интуитивно понятных свободных набросков. Мы представляем значительный шаг к практическому, управляемому и физически правдоподобному моделированию жидкостей для интерактивных приложений в реальном времени. Мы обещаем опубликовать модели и данные после принятия работы.
Крупные языковые модели (LLMs) продемонстрировали выдающиеся способности к рассуждению в математике и программировании, часто усиленные пост-обучением на цепочках рассуждений (CoTs), сгенерированных более мощными моделями. Однако существующие стратегии отбора таких обучающих данных в основном опираются на эвристики, что ограничивает обобщаемость и не позволяет уловить тонкости, заложенные в данных. Для устранения этих ограничений мы используем функции влияния для систематического анализа вклада отдельных обучающих примеров, последовательностей и токенов в способность LLMs к рассуждению в математике и программировании, что позволяет глубже понять характеристики эффективных данных. Наш метод анализа влияния на рассуждения (Infra) выявляет нетривиальные кросс-доменные эффекты между задачами по математике и программированию: примеры с высокой сложностью в математике улучшают как математические, так и программные рассуждения, в то время как задачи с низкой сложностью в программировании наиболее эффективно способствуют улучшению программных рассуждений. На основе этих результатов мы предлагаем простую, но эффективную стратегию перевзвешивания данных путем изменения сложности задач, что удваивает точность AIME24 с 10\% до 20\% и повышает точность LiveCodeBench с 33.8\% до 35.3\% для модели Qwen2.5-7B-Instruct. Кроме того, наш детальный анализ влияния показывает, что исследовательское поведение на уровне последовательностей улучшает производительность рассуждений как в математике, так и в программировании, а паттерны влияния на уровне токенов различаются для математических и программных рассуждений: первые предпочитают логические связки на естественном языке, а вторые акцентируют внимание на структурном синтаксисе.
В данном обзоре представлен всесторонний анализ двух новых парадигм в разработке программного обеспечения с использованием ИИ: виб-кодинга и агентного кодинга. Обе парадигмы используют большие языковые модели (LLM), но принципиально различаются по уровню автономности, архитектурному дизайну и роли разработчика. Виб-кодинг делает акцент на интуитивном взаимодействии с участием человека через подсказки и диалоговые рабочие процессы, которые поддерживают генерацию идей, экспериментирование и творческое исследование. В то же время агентное кодинг позволяет осуществлять автономную разработку программного обеспечения с помощью целеориентированных агентов, способных планировать, выполнять, тестировать и итерировать задачи с минимальным вмешательством человека. Мы предлагаем детальную таксономию, охватывающую концептуальные основы, модели выполнения, циклы обратной связи, механизмы безопасности, стратегии отладки и экосистемы реальных инструментов. Сравнительный анализ рабочих процессов и 20 подробных примеров использования показывают, что системы виб-кодинга эффективны на этапах раннего прототипирования и обучения, тогда как агентные системы преуспевают в автоматизации корпоративного уровня, рефакторинге кодовой базы и интеграции в CI/CD. Мы также исследуем новые тенденции в гибридных архитектурах, где интерфейсы на естественном языке сочетаются с автономными конвейерами выполнения. Наконец, мы формулируем дорожную карту для развития агентного ИИ, определяя инфраструктуру, необходимую для создания надежных, объяснимых и совместных систем. Наши выводы свидетельствуют о том, что успешная разработка программного обеспечения с использованием ИИ будет зависеть не от выбора одной парадигмы, а от гармоничного сочетания их сильных сторон в рамках единого жизненного цикла разработки, ориентированного на человека.
Современные крупные модели рассуждений демонстрируют впечатляющие способности к решению задач, используя сложные стратегии рассуждений. Однако они часто сталкиваются с трудностями в балансировке эффективности и результативности, генерируя излишне длинные цепочки рассуждений для простых задач. В данной работе мы предлагаем AdaCtrl, новый фреймворк, который поддерживает как адаптивное распределение бюджета рассуждений с учетом сложности задачи, так и явный контроль пользователя над глубиной рассуждений. AdaCtrl динамически корректирует длину рассуждений на основе самооценки сложности задачи, а также позволяет пользователям вручную управлять бюджетом, чтобы отдавать приоритет либо эффективности, либо результативности. Это достигается за счет двухэтапного процесса обучения: начальной фазы тонкой настройки для формирования способности к самооценке сложности и корректировки бюджета рассуждений, за которой следует этап обучения с подкреплением (RL) с учетом сложности, который улучшает адаптивные стратегии рассуждений модели и калибрует её оценки сложности на основе её развивающихся возможностей в ходе онлайн-обучения. Для обеспечения интуитивного взаимодействия с пользователем мы разработали явные теги, активируемые длиной, которые служат естественным интерфейсом для управления бюджетом. Эмпирические результаты показывают, что AdaCtrl адаптирует длину рассуждений в зависимости от оцененной сложности задачи. По сравнению с базовым подходом, который также включает тонкую настройку и RL, AdaCtrl демонстрирует улучшение производительности и одновременно сокращает длину ответов на 10,06% и 12,14% на более сложных наборах данных AIME2024 и AIME2025, требующих детальных рассуждений, и на 62,05% и 91,04% на наборах данных MATH500 и GSM8K, где достаточно более кратких ответов. Кроме того, AdaCtrl обеспечивает точный контроль пользователя над бюджетом рассуждений, позволяя создавать адаптированные ответы для удовлетворения конкретных потребностей.
Крупные модели рассуждений (Large Reasoning Models, LRMs) подвергаются критике за чрезмерно длинные цепочки рассуждений (Chain-of-Thought, CoT), необходимые для получения окончательного ответа, что приводит к высокой задержке первого токена и общей задержке. Как правило, CoT в LRMs смешивает несколько единиц мышления; каждая из них пытается сформировать кандидата на ответ на исходный запрос. Таким образом, естественной идеей для повышения эффективности является сокращение количества таких единиц. Однако тот факт, что единицы мышления в стандартном CoT не могут быть явно управляемы, делает эту задачу сложной. В данной статье представлен метод Multi-Turn Decomposition (MinD), который декодирует традиционный CoT в последовательность явных, структурированных и пошаговых взаимодействий, чтобы устранить этот разрыв. В MinD модель предоставляет многошаговый ответ на запрос, где каждый шаг включает единицу мышления и формирует соответствующий ответ. Последующие шаги могут отражать, проверять, корректировать или исследовать альтернативные подходы как к мышлению, так и к ответам предыдущих шагов. Это не только ускоряет получение ответа, но и позволяет явно контролировать итеративный процесс рассуждений (например, пользователи могут остановить или продолжить процесс на любом шаге). Мы следуем парадигме контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) с последующим обучением с подкреплением (Reinforcement Learning, RL) для реализации MinD. Сначала мы переформулируем выходы LRM в многошаговый формат, используя подсказки другой крупной языковой модели (LLM), а затем настраиваем LRM на таких данных. Заметив, что настроенная модель склонна использовать даже больше токенов, чем исходная (вероятно, из-за того, что многошаговый формат вводит дополнительные токены ответа), мы предлагаем использовать алгоритмы RL, такие как GRPO, чтобы отдавать приоритет правильным ответам с меньшим количеством шагов. Обучившись на наборе данных MATH с использованием моделей R1-Distill, MinD может достичь сокращения использования выходных токенов и времени до первого токена (Time to First Token, TTFT) до ~70%, сохраняя при этом конкурентоспособные результаты на тестах рассуждений, таких как MATH-500, AIME24, AMC23 и GPQA-Diamond.
Визуальное авторегрессивное моделирование (VAR) привлекло значительное внимание благодаря своему инновационному подходу к прогнозированию на следующем масштабе, что приводит к существенному улучшению эффективности, масштабируемости и обобщения в условиях нулевого сэмплинга. Однако методология "от грубого к точному", присущая VAR, вызывает экспоненциальный рост кэша ключей и значений (KV) во время вывода, что приводит к значительному потреблению памяти и вычислительной избыточности. Для устранения этих узких мест мы представляем ScaleKV — новый фреймворк для сжатия кэша KV, разработанный специально для архитектур VAR. ScaleKV основывается на двух ключевых наблюдениях: различной потребности в кэше между слоями трансформера и различиях в паттернах внимания на разных масштабах. На основе этих инсайтов ScaleKV классифицирует слои трансформера на две функциональные группы: черновики и уточнители. Черновики демонстрируют рассеянное внимание на нескольких масштабах, что требует большего объема кэша. Напротив, уточнители фокусируют внимание на текущей карте токенов для обработки локальных деталей, что, в свою очередь, значительно снижает потребность в кэше. ScaleKV оптимизирует многомасштабный конвейер вывода, идентифицируя черновики и уточнители для каждого масштаба, что позволяет осуществлять дифференцированное управление кэшем, адаптированное под каждый масштаб. Оценка на семействе современных моделей VAR для генерации изображений из текста, Infinity, демонстрирует, что наш подход эффективно сокращает требуемую память для кэша KV до 10%, сохраняя при этом точность на уровне пикселей.
Устная речь передает смысл не только через слова, но и через интонацию, эмоции и акценты. Смысловое ударение, то есть выделение определенных слов в предложении, играет ключевую роль в передаче намерений говорящего и широко изучается в лингвистике. В данной работе мы представляем WHISTRESS — подход, не требующий выравнивания, для улучшения систем транскрипции с возможностью обнаружения смыслового ударения. Для поддержки этой задачи мы предлагаем TINYSTRESS-15K — масштабируемые синтетические данные для обучения, созданные в полностью автоматизированном процессе. Мы обучаем WHISTRESS на TINYSTRESS-15K и сравниваем его с несколькими конкурентоспособными базовыми методами. Наши результаты показывают, что WHISTRESS превосходит существующие подходы, при этом не требуя дополнительных входных данных на этапах обучения или вывода. Примечательно, что, несмотря на обучение на синтетических данных, WHISTRESS демонстрирует сильную способность к обобщению в условиях нулевого сдвига на различных тестовых наборах. Страница проекта: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
Длинные цепочки рассуждений (CoT) значительно улучшают способность крупных языковых моделей (LLM) к логическому мышлению. Однако обширные траектории рассуждений приводят к неэффективности и увеличению времени до первого токена (TTFT). Мы предлагаем новую парадигму обучения, которая использует обучение с подкреплением (RL) для направления моделей рассуждений к чередованию мышления и ответов на многошаговые вопросы. Мы наблюдаем, что модели изначально обладают способностью выполнять чередующиеся рассуждения, которая может быть дополнительно улучшена с помощью RL. Мы вводим простое, но эффективное правило на основе вознаграждения для стимулирования правильных промежуточных шагов, что направляет модель политики на правильные пути рассуждений, используя промежуточные сигналы, генерируемые в процессе чередующихся рассуждений. Многочисленные эксперименты, проведенные на пяти различных наборах данных и с использованием трех алгоритмов RL (PPO, GRPO и REINFORCE++), демонстрируют устойчивые улучшения по сравнению с традиционным подходом "думай-отвечай", без необходимости использования внешних инструментов. В частности, наш подход сокращает TTFT в среднем более чем на 80% и улучшает точность Pass@1 до 19,3%. Более того, наш метод, обученный исключительно на наборах данных для ответов на вопросы и логических рассуждений, демонстрирует сильную способность к обобщению на сложные наборы данных, такие как MATH, GPQA и MMLU. Дополнительно мы проводим углубленный анализ, чтобы выявить несколько ценных инсайтов в области моделирования условных вознаграждений.
Центрированная на данных дистилляция, включающая аугментацию, отбор и смешивание данных, предлагает перспективный путь для создания более компактных и эффективных студенческих моделей больших языковых моделей (LLM), сохраняющих высокие способности к рассуждению. Однако до сих пор отсутствует всеобъемлющий бенчмарк для систематической оценки влияния каждого подхода к дистилляции. В данной работе представлен DC-CoT — первый центрированный на данных бенчмарк, который исследует манипуляции с данными в дистилляции цепочки рассуждений (CoT) с точки зрения методов, моделей и данных. Используя различные учительские модели (например, o4-mini, Gemini-Pro, Claude-3.5) и студенческие архитектуры (например, 3B, 7B параметров), мы тщательно оцениваем влияние этих манипуляций с данными на производительность студенческих моделей на множестве наборов данных для рассуждений, с акцентом на обобщение внутри распределения (IID) и за его пределами (OOD), а также на кросс-доменный перенос. Наши результаты направлены на предоставление практических рекомендаций и установление лучших практик для оптимизации CoT-дистилляции с использованием центрированных на данных техник, что в конечном итоге способствует разработке более доступных и мощных моделей для рассуждений. Набор данных доступен по адресу https://huggingface.co/datasets/rana-shahroz/DC-COT, а наш код опубликован на https://anonymous.4open.science/r/DC-COT-FF4C/.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют выдающиеся результаты во многих прямых мультимодальных задачах, однако испытывают трудности с применением этих способностей для эффективного принятия решений в интерактивных, визуально насыщенных средах, таких как игры. Этот разрыв между «знанием» и «действием» существенно ограничивает их потенциал в качестве автономных агентов, поскольку ведущие VLMs часто показывают низкие результаты в простых играх. Для решения этой проблемы мы представляем VLM-Gym — специализированную среду для обучения с подкреплением (Reinforcement Learning, RL), включающую разнообразные визуальные игры с унифицированными интерфейсами и настраиваемой, композиционной сложностью, специально разработанную для масштабируемого параллельного обучения на множестве игр. Используя VLM-Gym, мы обучаем модели G0 с помощью чистого RL-движимого саморазвития, которые демонстрируют возникающие паттерны восприятия и рассуждения. Для дальнейшего смягчения проблем, связанных с разнообразием игр, мы разрабатываем модели G1. G1 включает в себя улучшенное восприятие на этапе «холодного старта» перед тонкой настройкой с помощью RL. Полученные модели G1 стабильно превосходят своих учителей во всех играх и опережают ведущие проприетарные модели, такие как Claude-3.7-Sonnet-Thinking. Систематический анализ выявляет интригующий факт: способности восприятия и рассуждения взаимно усиливают друг друга на протяжении всего процесса RL-обучения. Исходный код, включая VLM-Gym и RL-обучение, опубликован на https://github.com/chenllliang/G1 для стимулирования будущих исследований в области развития VLMs как эффективных интерактивных агентов.
Благодаря использованию визуальных кодировщиков, обученных контрастивным методом на крупномасштабных изображениях естественных сцен, крупные мультимодальные модели (LMM) достигли выдающихся результатов в различных задачах визуального восприятия. Однако присущие ограничения контрастивного обучения на основе обобщенных описаний фундаментально ограничивают способности моделей к тщательному рассуждению, особенно в критически важных сценариях решения геометрических задач. Для улучшения понимания геометрии мы предлагаем новый фреймворк контрастивного обучения с использованием сложных негативных примеров для визуального кодировщика, который сочетает в себе контрастивное обучение на основе изображений с использованием сложных негативов, созданных путем модификации кода генерации диаграмм, и контрастивное обучение на основе текста с использованием правил для создания негативов на основе измененных геометрических описаний, а также негативов, отобранных на основе сходства заголовков. Мы обучаем модель CLIP с использованием нашего метода сильного негативного обучения, названного MMCLIP (Multimodal Math CLIP), а затем обучаем LMM для решения геометрических задач. Эксперименты показывают, что наша обученная модель, MMGeoLM, значительно превосходит другие модели с открытым исходным кодом на трех тестовых наборах для геометрического рассуждения. Даже при размере 7B она может конкурировать с мощными закрытыми моделями, такими как GPT-4o. Мы также изучаем влияние различных методов построения негативных примеров и количества негативных примеров на производительность LMM в геометрическом рассуждении, получая полезные выводы. Код и набор данных доступны по адресу https://github.com/THU-KEG/MMGeoLM.
Недавние достижения в моделях генерации видео вызвали интерес к моделям мира, способным симулировать реалистичные среды. Хотя навигация была хорошо изучена, физически значимые взаимодействия, имитирующие реальные силы, остаются в значительной степени неисследованными. В данной работе мы исследуем использование физических сил в качестве управляющего сигнала для генерации видео и предлагаем "силовые подсказки", которые позволяют пользователям взаимодействовать с изображениями как через локализованные точечные силы, например, толчок растения, так и через глобальные силовые поля, такие как ветер, воздействующий на ткань. Мы демонстрируем, что эти силовые подсказки могут заставить видео реалистично реагировать на физические управляющие сигналы, используя визуальные и моторные приоритеты исходной предобученной модели, без использования каких-либо 3D-ассетов или физических симуляторов на этапе вывода. Основная сложность силовых подсказок заключается в трудности получения высококачественных парных данных "сила-видео" для обучения, как в реальном мире из-за сложности получения сигналов силы, так и в синтетических данных из-за ограничений в визуальном качестве и разнообразии доменов физических симуляторов. Наше ключевое открытие заключается в том, что модели генерации видео могут обобщаться удивительно хорошо, когда адаптированы для следования физическому силовому условию на основе видео, синтезированных в Blender, даже при ограниченных демонстрациях с небольшим количеством объектов. Наш метод может генерировать видео, симулирующие силы на разнообразных геометриях, настройках и материалах. Мы также пытаемся понять источник этого обобщения и проводим абляции, которые выявляют два ключевых элемента: визуальное разнообразие и использование конкретных текстовых ключевых слов во время обучения. Наш подход обучается всего на около 15 тыс. обучающих примеров в течение одного дня на четырех GPU A100 и превосходит существующие методы по следованию силам и реализму физики, приближая модели мира к взаимодействиям с реальной физикой. Мы публикуем все наборы данных, код, веса и интерактивные демонстрации видео на странице нашего проекта.
Последние достижения в области ИИ-агентов продемонстрировали их растущий потенциал для стимулирования и поддержки научных открытий. В данной работе мы представляем MLR-Bench — комплексный бенчмарк для оценки ИИ-агентов в открытых исследованиях машинного обучения. MLR-Bench включает три ключевых компонента: (1) 201 исследовательскую задачу, взятых из семинаров NeurIPS, ICLR и ICML, охватывающих разнообразные темы машинного обучения; (2) MLR-Judge — автоматизированную систему оценки, объединяющую рецензентов на основе больших языковых моделей (LLM) с тщательно разработанными критериями для оценки качества исследований; и (3) MLR-Agent — модульный каркас агента, способного выполнять исследовательские задачи через четыре этапа: генерация идей, формулировка предложений, экспериментирование и написание статьи. Наша система поддерживает как поэтапную оценку на этих различных стадиях исследования, так и сквозную оценку итоговой научной работы. Мы используем MLR-Bench для оценки шести передовых LLM и продвинутого агента для написания кода, обнаруживая, что, хотя LLM эффективны в генерации связных идей и хорошо структурированных статей, современные агенты для написания кода часто (например, в 80% случаев) производят сфабрикованные или невалидированные экспериментальные результаты, что представляет собой серьезное препятствие для научной надежности. Мы проверяем MLR-Judge с помощью экспертной оценки, демонстрируя высокую согласованность с мнением экспертов, что подтверждает его потенциал как масштабируемого инструмента для оценки исследований. Мы открываем исходный код MLR-Bench, чтобы помочь сообществу тестировать, диагностировать и улучшать ИИ-агентов для исследований, способствуя надежному и прозрачному научному открытию.
В данной статье представлен InfantAgent-Next — универсальный агент, способный взаимодействовать с компьютерами в мультимодальном режиме, включая текст, изображения, аудио и видео. В отличие от существующих подходов, которые либо строят сложные рабочие процессы вокруг одной крупной модели, либо предлагают только модульность рабочих процессов, наш агент интегрирует инструментальные и чисто визуальные агенты в рамках высокомодульной архитектуры, позволяя различным моделям совместно решать декомпозированные задачи пошагово. Универсальность нашего подхода демонстрируется возможностью оценки не только чисто визуальных бенчмарков реального мира (например, OSWorld), но и более общих или инструментально-интенсивных бенчмарков (например, GAIA и SWE-Bench). В частности, мы достигаем точности 7,27% на OSWorld, что выше, чем у Claude-Computer-Use. Коды и скрипты для оценки доступны по адресу https://github.com/bin123apple/InfantAgent.
Растущие вычислительные требования крупных языковых моделей (LLM) делают стратегии эффективного вывода и активации все более критически важными. Хотя современные подходы, такие как Mixture-of-Experts (MoE), используют избирательную активацию, они требуют специализированного обучения, тогда как методы разреженной активации, не требующие обучения, предлагают более широкую применимость и превосходную эффективность использования ресурсов благодаря своей конструкции "подключи и работай". Однако многие существующие методы полагаются исключительно на величины скрытых состояний для определения активации, что приводит к высоким ошибкам аппроксимации и неоптимальной точности вывода. Чтобы устранить эти ограничения, мы предлагаем WINA (Weight Informed Neuron Activation) — новый, простой и не требующий обучения фреймворк для разреженной активации, который совместно учитывает величины скрытых состояний и столбцовые нормы ell_2 матриц весов. Мы показываем, что это приводит к стратегии разрежения, которая обеспечивает оптимальные границы ошибок аппроксимации с теоретическими гарантиями, более строгими, чем у существующих методов. Эмпирически WINA также превосходит современные методы (например, TEAL) на величину до 2,94% по среднему показателю производительности при одинаковых уровнях разреженности, на различных архитектурах LLM и наборах данных. Эти результаты позиционируют WINA как новый рубеж производительности для разреженной активации без обучения в выводе LLM, продвигая методы разреженной активации без обучения и устанавливая надежный базис для эффективного вывода. Исходный код доступен по адресу https://github.com/microsoft/wina.
Последние достижения в области автоматического распознавания речи (ASR) во многом обусловлены использованием обширных речевых корпусов. Однако расширение охвата на разнообразные языки с ограниченными ресурсами остается серьезной проблемой. В данной статье представлен метод Speech Back-Translation, масштабируемый подход, который улучшает многоязычные модели ASR путем преобразования крупномасштабных текстовых корпусов в синтетическую речь с использованием готовых моделей синтеза речи (TTS). Мы демонстрируем, что всего несколько десятков часов реальной транскрибированной речи могут эффективно обучить модели TTS для генерации синтетической речи в сотни раз большего объема при сохранении высокого качества. Для оценки качества синтетической речи мы разработали основанную на разборчивости методику оценки и установили четкие пороговые значения, при которых синтетические данные приносят пользу обучению ASR. Используя Speech Back-Translation, мы сгенерировали более 500 000 часов синтетической речи на десяти языках и продолжили предварительное обучение модели Whisper-large-v3, достигнув среднего снижения ошибок транскрипции более чем на 30%. Эти результаты подчеркивают масштабируемость и эффективность метода Speech Back-Translation для улучшения многоязычных систем ASR.
Мультимодальные большие языковые модели (MLLMs) продемонстрировали впечатляющие способности в решении разнообразных задач, однако они значительно уступают людям в пространственном мышлении. Мы исследуем этот разрыв с помощью задачи Transformation-Driven Visual Reasoning (TVR), которая требует идентификации преобразований объектов на изображениях при изменении точек зрения. В то время как традиционная Supervised Fine-Tuning (SFT) не способна генерировать последовательные пути рассуждений в условиях смены ракурсов, обучение с подкреплением (RL) с разреженными наградами страдает от неэффективного исследования и медленной сходимости. Для преодоления этих ограничений мы предлагаем STAR-R1 — новый фреймворк, который объединяет одноэтапную парадигму RL с детализированным механизмом наград, адаптированным для TVR. В частности, STAR-R1 вознаграждает частичную правильность, одновременно наказывая за избыточное перечисление и пассивное бездействие, что позволяет эффективно исследовать и точно рассуждать. Комплексные оценки показывают, что STAR-R1 достигает наилучших результатов по всем 11 метрикам, превосходя SFT на 23% в сценариях с изменением ракурсов. Дополнительный анализ выявляет антропоморфное поведение STAR-R1 и подчеркивает его уникальную способность сравнивать все объекты для улучшения пространственного мышления. Наша работа предоставляет важные инсайты для продвижения исследований MLLMs и моделей рассуждений. Коды, веса модели и данные будут общедоступны по адресу https://github.com/zongzhao23/STAR-R1.
Хотя маскированные диффузионные модели (MDMs), такие как LLaDA, представляют собой многообещающую парадигму для языкового моделирования, было приложено относительно мало усилий для согласования этих моделей с человеческими предпочтениями с помощью обучения с подкреплением. Основная сложность заключается в высокой дисперсии оценок правдоподобия, основанных на Evidence Lower Bound (ELBO), которые необходимы для оптимизации предпочтений. Для решения этой проблемы мы предлагаем метод Variance-Reduced Preference Optimization (VRPO) — фреймворк, который формально анализирует дисперсию оценок ELBO и выводит границы как для смещения, так и для дисперсии градиентов оптимизации предпочтений. Опираясь на эту теоретическую основу, мы вводим несмещенные стратегии снижения дисперсии, включая оптимальное распределение бюджета Монте-Карло и антитетический сэмплинг, которые значительно улучшают производительность согласования MDM. Мы демонстрируем эффективность VRPO, применяя его к LLaDA, и полученная модель, LLaDA 1.5, стабильно и значительно превосходит своего предшественника, обученного только с помощью SFT, на математических (GSM8K +4.7), кодовых (HumanEval +3.0, MBPP +1.8) и бенчмарках согласования (IFEval +4.0, Arena-Hard +4.3). Более того, LLaDA 1.5 демонстрирует высококонкурентную математическую производительность по сравнению с сильными языковыми MDM и ARM. Страница проекта: https://ml-gsai.github.io/LLaDA-1.5-Demo/.
Крупные языковые модели демонстрируют превосходство в распознавании паттернов, но часто оказываются неспособны к систематической композиционной генерализации. Мы предлагаем принцип покрытия: ориентированный на данные подход, который показывает, что модели, полагающиеся в основном на распознавание паттернов для выполнения композиционных задач, не могут надежно обобщать за пределы замены фрагментов, которые дают идентичные результаты при использовании в одинаковых контекстах. Мы демонстрируем, что этот подход обладает высокой предсказательной силой в отношении способности к обобщению у трансформеров. Во-первых, мы выводим и эмпирически подтверждаем, что объем обучающих данных, необходимых для двухшаговой генерализации, растет как минимум квадратично с увеличением размера набора токенов, а эффективность использования данных не улучшается при увеличении количества параметров в 20 раз. Во-вторых, для композиционных задач с неоднозначностью путей, где одна переменная влияет на выход через несколько вычислительных путей, мы показываем, что трансформеры изучают контекстно-зависимые представления состояний, которые подрывают как производительность, так и совместимость. В-третьих, обучение с использованием цепочки рассуждений (Chain-of-Thought) повышает эффективность использования данных для многошаговых задач, но все же сталкивается с трудностями при неоднозначности путей. Наконец, мы предлагаем механизм-ориентированную таксономию, которая выделяет три способа обобщения в нейронных сетях: основанное на структуре (ограниченное покрытием), основанное на свойствах (использующее алгебраические инвариантности) и основанное на общих операторах (через повторное использование функций). Эта концептуальная линза контекстуализирует наши результаты и подчеркивает, где необходимы новые архитектурные идеи для достижения систематической композиционности. В целом, принцип покрытия предоставляет единый подход для понимания композиционного рассуждения и подчеркивает необходимость фундаментальных инноваций в архитектуре или обучении для достижения истинно систематической композиционности.
Современные атаки на вывод членства (membership inference attacks, MIAs) обычно требуют обучения множества референсных моделей, что затрудняет масштабирование этих атак на крупные предобученные языковые модели (LLMs). В результате предыдущие исследования либо полагались на более слабые атаки, избегающие обучения референсных моделей (например, атаки с дообучением), либо на более сильные атаки, применяемые к моделям и наборам данных малого масштаба. Однако было показано, что более слабые атаки являются ненадежными — достигая успеха, близкого к случайному, — а выводы из сильных атак в упрощенных условиях не переносятся на современные LLMs. Эти проблемы подняли важный вопрос: связаны ли ограничения, наблюдаемые в предыдущих работах, с выбором дизайна атак, или MIAs принципиально неэффективны на LLMs? Мы исследуем этот вопрос, масштабируя LiRA — одну из самых сильных MIAs — на архитектуры GPT-2 с количеством параметров от 10 млн до 1 млрд, обучая референсные модели на более чем 20 млрд токенов из набора данных C4. Наши результаты углубляют понимание MIAs на LLMs в трех ключевых аспектах: (1) сильные MIAs могут быть успешными на предобученных LLMs; (2) однако их эффективность остается ограниченной (например, AUC<0.7) в практических условиях; и (3) связь между успехом MIAs и связанными метриками приватности не так прямолинейна, как предполагалось в предыдущих работах.
Фундаментальные модели становятся все более эффективными в роли автономных программистов, что повышает вероятность их использования для автоматизации опасных киберопераций наступательного характера. Современные аудиты передовых моделей исследуют кибербезопасность таких агентов, но большинство из них не учитывают степени свободы, доступные злоумышленникам в реальных условиях. В частности, при наличии мощных верификаторов и финансовых стимулов агенты для наступательной кибербезопасности могут быть улучшены потенциальными противниками в ходе итеративного процесса. Мы утверждаем, что оценки должны учитывать расширенную модель угроз в контексте кибербезопасности, подчеркивая различные степени свободы, которыми может обладать злоумышленник в состояниях с сохранением и без сохранения состояния в рамках фиксированного вычислительного бюджета. Мы показываем, что даже при относительно небольшом вычислительном бюджете (8 часов работы GPU H100 в нашем исследовании) злоумышленники могут повысить кибербезопасность агента на платформе InterCode CTF более чем на 40% относительно базового уровня — без какой-либо внешней помощи. Эти результаты подчеркивают необходимость динамической оценки кибербезопасности агентов, что позволяет получить более репрезентативную картину рисков.
Традиционное обучение с подкреплением на основе человеческих предпочтений (RLHF) часто опирается на модели вознаграждения, обычно предполагая структуры предпочтений, такие как модель Брэдли-Терри, которые могут не точно отражать сложность реальных человеческих предпочтений (например, интранзитивность). Обучение на основе человеческих предпочтений через равновесие Нэша (NLHF) предлагает более прямой подход, формулируя задачу как поиск равновесия Нэша в игре, определяемой этими предпочтениями. В данной работе мы представляем Nash Mirror Prox (Nash-MP) — онлайн-алгоритм NLHF, который использует схему оптимизации Mirror Prox для достижения быстрой и устойчивой сходимости к равновесию Нэша. Наш теоретический анализ показывает, что Nash-MP демонстрирует линейную сходимость на последней итерации к бета-регуляризованному равновесию Нэша. В частности, мы доказываем, что KL-дивергенция до оптимальной политики уменьшается со скоростью порядка (1+2beta)^{-N/2}, где N — количество запросов предпочтений. Мы также демонстрируем линейную сходимость на последней итерации для разрыва эксплуатируемости и равномерно для полунормы размаха логарифмов вероятностей, причем все эти скорости не зависят от размера пространства действий. Кроме того, мы предлагаем и анализируем приближенную версию Nash-MP, в которой проксимальные шаги оцениваются с использованием стохастических градиентов политики, что делает алгоритм более применимым на практике. Наконец, мы детализируем стратегию практической реализации для тонкой настройки больших языковых моделей и представляем эксперименты, демонстрирующие её конкурентоспособность и совместимость с существующими методами.
Обучение с подкреплением демонстрирует потенциал в улучшении способностей крупных языковых моделей к рассуждению, однако его сложно масштабировать из-за низкой эффективности выборки на этапе развертывания. Существующие методы пытаются повысить эффективность, планируя задачи на основе их сложности. Однако эти подходы страдают от нестабильных и смещенных оценок сложности задач и не учитывают соответствие между компетенцией модели и сложностью задачи в процессе обучения с подкреплением, что приводит к субоптимальным результатам. Для устранения этих ограничений в данной статье представлен метод **Сэмплинг с учетом соответствия компетенции и сложности (CDAS)**, который позволяет точно и стабильно оценивать сложность задач путем агрегирования исторических расхождений в производительности. Затем компетенция модели количественно оценивается для адаптивного выбора задач, сложность которых соответствует текущей компетенции модели, с использованием системы фиксированных точек. Результаты экспериментов на ряде сложных математических тестов показывают, что CDAS достигает значительных улучшений как в точности, так и в эффективности. CDAS демонстрирует наивысшую среднюю точность по сравнению с базовыми методами и значительные преимущества в скорости по сравнению с методом Dynamic Sampling, конкурентоспособной стратегией в DAPO, который работает в 2,33 раза медленнее, чем CDAS.
С ростом успехов моделей рассуждений в решении сложных задач обработки естественного языка, исследователи в области информационного поиска (IR) начали изучать, как аналогичные возможности рассуждений могут быть интегрированы в ранжирующие системы для текстовых фрагментов, построенные на основе больших языковых моделей (LLM). Эти методы обычно используют LLM для создания явного, пошагового процесса рассуждений перед тем, как прийти к окончательному прогнозу релевантности. Но действительно ли рассуждения улучшают точность ранжирования? В данной статье мы углубляемся в этот вопрос, изучая влияние процесса рассуждений, сравнивая ранжирующие системы на основе рассуждений (ReasonRR) со стандартными ранжирующими системами без рассуждений (StandardRR) при идентичных условиях обучения, и наблюдаем, что StandardRR, как правило, превосходит ReasonRR. Опираясь на это наблюдение, мы затем изучаем важность рассуждений для ReasonRR, отключая его процесс рассуждений (ReasonRR-NoReason), и обнаруживаем, что ReasonRR-NoReason, к удивлению, оказывается более эффективным, чем ReasonRR. Исследуя причину этого результата, наши выводы показывают, что ранжирующие системы на основе рассуждений ограничены процессом рассуждений LLM, который склоняет их к поляризованным оценкам релевантности и, таким образом, не учитывает частичную релевантность текстовых фрагментов, что является ключевым фактором для точности поточечных ранжирующих систем.
Разреженные автокодировщики (SAE) являются важным инструментом в механистической интерпретируемости (MI) для декомпозиции активаций нейронных сетей на интерпретируемые признаки. Однако стремление к идентификации канонического набора признаков сталкивается с проблемой несоответствия признаков, извлеченных SAE, в различных запусках обучения, что подрывает надежность и эффективность исследований в области MI. В данной позиционной статье утверждается, что механистическая интерпретируемость должна уделять приоритетное внимание согласованности признаков в SAE — надежной сходимости к эквивалентным наборам признаков в независимых запусках. Мы предлагаем использовать коэффициент попарной корреляции средних значений словаря (PW-MCC) в качестве практической метрики для оценки согласованности и демонстрируем, что высокие уровни согласованности (0.80 для TopK SAE на активациях LLM) достижимы при правильном выборе архитектуры. Наши вклад включает описание преимуществ приоритизации согласованности; теоретическое обоснование и синтетическую валидацию с использованием модельного организма, которая подтверждает PW-MCC как надежный прокси для восстановления истинных значений; а также применение этих результатов к реальным данным LLM, где высокая согласованность признаков сильно коррелирует с семантическим сходством объяснений извлеченных признаков. Мы призываем к общественному сдвигу в сторону систематического измерения согласованности признаков для обеспечения устойчивого кумулятивного прогресса в MI.
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности в области биомедицинского ответа на вопросы, однако их применение в реальных клинических консультациях по-прежнему сталкивается с ключевыми проблемами. Существующие системы полагаются на односторонний режим передачи информации, при котором пациенты должны полностью описать свои симптомы за один раунд, что приводит к неспецифическим диагностическим рекомендациям в случае расплывчатых жалоб. Традиционные методы многораундового диалога, основанные на обучении с учителем, ограничены статичными парадигмами, ориентированными на данные, что снижает их обобщаемость и затрудняет интеллектуальное извлечение ключевой клинической информации. Для преодоления этих ограничений мы предлагаем DoctorAgent-RL — многоагентную совместную структуру, основанную на обучении с подкреплением (RL), которая моделирует медицинские консультации как динамический процесс принятия решений в условиях неопределенности. Агент-врач непрерывно оптимизирует свою стратегию вопросов в рамках RL через многораундовое взаимодействие с агентом-пациентом, динамически корректируя путь сбора информации на основе комплексных оценок от Консультационного Оценщика. Этот механизм тонкой настройки RL позволяет LLM автономно разрабатывать стратегии взаимодействия, соответствующие логике клинического рассуждения, вместо поверхностного копирования шаблонов из существующих диалоговых данных. Примечательно, что мы создали MTMedDialog — первый англоязычный набор данных для многораундовых медицинских консультаций, способный моделировать взаимодействия с пациентами. Эксперименты показывают, что DoctorAgent-RL превосходит существующие модели как в способности к многораундовому рассуждению, так и в итоговой диагностической производительности, демонстрируя практическую ценность в поддержке клинических консультаций. https://github.com/JarvisUSTC/DoctorAgent-RL
Последние достижения в области больших языковых моделей (LLM) представили латентное рассуждение как перспективную альтернативу авторегрессивному рассуждению. Выполняя внутренние вычисления с использованием скрытых состояний из предыдущих шагов, латентное рассуждение выигрывает от более информативных признаков, чем выбор дискретного пути цепочки мыслей (CoT). Однако подходы к латентному рассуждению часто несовместимы с LLM, поскольку их непрерывная парадигма противоречит дискретной природе авторегрессивной генерации. Более того, эти методы полагаются на траектории CoT для обучения и, таким образом, не используют внутренние паттерны рассуждения LLM. В данной работе мы исследуем латентное рассуждение, используя внутренние возможности LLM через обучение с подкреплением (RL). Для этого мы представляем гибридную оптимизацию политики рассуждения (HRPO), RL-подход к гибридному латентному рассуждению, который (1) интегрирует предыдущие скрытые состояния в сэмплированные токены с помощью обучаемого механизма управления и (2) инициализирует обучение преимущественно с использованием токенов, постепенно включая больше скрытых признаков. Этот дизайн сохраняет генеративные способности LLM и стимулирует гибридное рассуждение с использованием как дискретных, так и непрерывных представлений. Кроме того, гибридный HRPO вносит стохастичность в латентное рассуждение через сэмплирование токенов, что позволяет оптимизировать с помощью RL без необходимости траекторий CoT. Обширные оценки на различных бенчмарках показывают, что HRPO превосходит предыдущие методы как в задачах, требующих знаний, так и в задачах, требующих рассуждений. Более того, LLM, обученные с помощью HRPO, остаются интерпретируемыми и демонстрируют интересные поведенческие паттерны, такие как кросс-лингвистические закономерности и более короткие длины завершения, что подчеркивает потенциал нашего RL-подхода и предлагает направления для будущих исследований в области латентного рассуждения.
Обобщаемое активное картографирование в сложных неизвестных средах остается ключевой задачей для мобильных роботов. Существующие методы, ограниченные недостаточным объемом обучающих данных и консервативными стратегиями исследования, демонстрируют ограниченную обобщаемость в сценах с разнообразной планировкой и сложной связностью. Для обеспечения масштабируемого обучения и надежной оценки мы представляем GLEAM-Bench — первый крупномасштабный бенчмарк, разработанный для обобщаемого активного картографирования, включающий 1 152 разнообразных 3D-сцены из синтетических и реальных сканированных наборов данных. На основе этого фундамента мы предлагаем GLEAM — унифицированную обобщаемую стратегию исследования для активного картографирования. Ее превосходная обобщаемость достигается главным образом благодаря семантическим представлениям, долгосрочным навигационным целям и рандомизированным стратегиям. GLEAM значительно превосходит современные методы, достигая 66,50% покрытия (+9,49%) с эффективными траекториями и улучшенной точностью картографирования на 128 ранее не встречавшихся сложных сценах. Страница проекта: https://xiao-chen.tech/gleam/.
Крупные языковые модели (LLM) обычно настраиваются на соблюдение правил безопасности, отказываясь выполнять вредоносные инструкции. Недавняя атака, названная "аблитерация", выделяет и подавляет единственное латентное направление, наиболее ответственное за поведение отказа, что позволяет модели генерировать неэтичный контент. Мы предлагаем защиту, которая изменяет способ, каким модели генерируют отказы. Мы создаем расширенный набор данных для отказов, содержащий вредоносные запросы с полным ответом, обосновывающим причину отказа. Затем мы дообучаем модели Llama-2-7B-Chat и Qwen2.5-Instruct (с 1,5 и 3 миллиардами параметров) на нашем расширенном наборе данных и оцениваем полученные системы на наборе вредоносных запросов. В наших экспериментах модели с расширенными отказами сохраняют высокие показатели отказов, снижаясь максимум на 10%, тогда как базовые модели снижают показатели отказов на 70-80% после аблитерации. Широкая оценка безопасности и полезности показывает, что дообучение с расширенными отказами нейтрализует атаку аблитерации, сохраняя при этом общую производительность.
Обучение с подкреплением (Reinforcement Learning, RL) сыграло ключевую роль в недавнем прогрессе математических способностей крупных языковых моделей (LLMs), обеспечивая самоулучшение через бинарные сигналы верификации. В отличие от этого, обучение с учителем (Supervised Learning, SL) редко рассматривается для подобного обучения, основанного на верификации, в основном из-за его сильной зависимости от эталонных ответов и неспособности анализировать ошибки. В данной работе мы оспариваем преобладающее мнение о том, что самоулучшение является исключительной прерогативой RL, и предлагаем Negative-aware Fine-Tuning (NFT) — подход на основе SL, который позволяет LLMs анализировать свои ошибки и улучшаться автономно без внешних учителей. В процессе онлайн-обучения вместо того, чтобы отбрасывать самостоятельно сгенерированные отрицательные ответы, NFT строит неявную негативную политику для их моделирования. Эта неявная политика параметризуется той же положительной LLM, которую мы стремимся оптимизировать на положительных данных, что позволяет напрямую оптимизировать политику на всех генерациях LLM. Мы проводим эксперименты на моделях размером 7B и 32B в задачах математического рассуждения. Результаты последовательно показывают, что благодаря дополнительному использованию негативной обратной связи NFT значительно превосходит базовые методы SL, такие как Rejection sampling Fine-Tuning, и достигает или даже превосходит ведущие алгоритмы RL, такие как GRPO и DAPO. Кроме того, мы демонстрируем, что NFT и GRPO фактически эквивалентны в строго on-policy обучении, несмотря на их совершенно разные теоретические основы. Наши эксперименты и теоретические выводы устраняют разрыв между методами SL и RL в системах обучения с бинарной обратной связью.
Крупные языковые модели (LLM) склонны к галлюцинациям, особенно при выполнении многошаговых и требующих сложных рассуждений задач, таких как решение математических задач. В то время как модели вознаграждения за результат проверяют только конечные ответы, модели вознаграждения за процесс (PRM) оценивают каждый промежуточный шаг, чтобы направлять генерацию в сторону последовательных решений. Мы представляем PathFinder-PRM — новую иерархическую, учитывающую ошибки дискриминативную PRM, которая сначала классифицирует математические и логические ошибки на каждом шаге, а затем объединяет эти детализированные сигналы для оценки правильности шага. Для обучения PathFinder-PRM мы создали набор данных из 400 тыс. образцов, обогатив аннотированный людьми корпус PRM800K и трассировки RLHFlow Mistral трехмерными метками на уровне шагов. На PRMBench PathFinder-PRM достигает нового рекордного значения PRMScore, равного 67.7, превосходя предыдущий лучший результат (65.5) при использовании в 3 раза меньшего объема данных. При применении к жадному поиску с управлением вознаграждением наша модель демонстрирует prm@8 48.3, что на 1.5 пункта выше, чем у самого сильного базового подхода. Эти результаты показывают, что разделение обнаружения ошибок и оценки вознаграждения не только улучшает детализированное обнаружение ошибок, но и существенно повышает эффективность сквозного, управляемого вознаграждением математического рассуждения при большей эффективности использования данных.
На протяжении почти десяти лет научное сообщество исследовало бэкдоры в нейронных сетях, в основном сосредотачиваясь на задачах классификации, где злоумышленники манипулируют предсказаниями модели. Хотя такие атаки, изменяющие предсказания, явно злонамеренны, их непосредственное влияние на реальный мир оставалось неясным. В данной статье мы представляем новый и значительно более мощный класс бэкдоров, который основывается на последних достижениях в области архитектурных бэкдоров. Мы демонстрируем, как эти бэкдоры могут быть специально разработаны для эксплуатации пакетного вывода — распространённой техники для эффективного использования аппаратного обеспечения, что позволяет осуществлять крупномасштабные манипуляции с пользовательскими данными и их кражу. Нацеливаясь на процесс пакетирования, эти архитектурные бэкдоры способствуют утечке информации между параллельными пользовательскими запросами и позволяют злоумышленникам полностью контролировать ответы модели, направленные на других пользователей в рамках одного пакета. Другими словами, злоумышленник, способный изменить архитектуру модели, может устанавливать и красть входные и выходные данные модели других пользователей в том же пакете. Мы показываем, что такие атаки не только возможны, но и тревожно эффективны, могут быть легко внедрены в распространённые архитектуры моделей и представляют собой серьёзную угрозу для конфиденциальности пользователей и целостности систем. Важно отметить, что для противодействия этому новому классу уязвимостей мы предлагаем детерминированную стратегию смягчения, которая обеспечивает формальные гарантии против этого нового вектора атак, в отличие от предыдущих работ, полагавшихся на большие языковые модели для обнаружения бэкдоров. Наша стратегия смягчения использует новый механизм контроля информационных потоков, который анализирует граф модели и доказывает отсутствие вмешательства между различными пользовательскими входами в рамках одного пакета. Используя нашу стратегию смягчения, мы проводим масштабный анализ моделей, размещённых на платформе Hugging Face, и обнаруживаем более 200 моделей, которые вводят (непреднамеренную) утечку информации между элементами пакета из-за использования динамического квантования.
Посттренинг продемонстрировал свою важность в улучшении способностей к рассуждению у крупных языковых моделей (LLM). Основные методы посттренинга можно разделить на контролируемую тонкую настройку (SFT) и тонкую настройку с подкреплением (RFT). SFT эффективна и хорошо подходит для небольших языковых моделей, но может привести к переобучению и ограничить способности к рассуждению у более крупных моделей. В отличие от этого, RFT обычно обеспечивает лучшее обобщение, но сильно зависит от качества базовой модели. Чтобы устранить ограничения SFT и RFT, мы предлагаем Унифицированную Тонкую Настройку (UFT) — новый подход к посттренингу, который объединяет SFT и RFT в единый интегрированный процесс. UFT позволяет модели эффективно исследовать решения, одновременно учитывая информативные сигналы контроля, устраняя разрыв между запоминанием и мышлением, присущий существующим методам. Примечательно, что UFT превосходит как SFT, так и RFT в целом, независимо от размера модели. Более того, мы теоретически доказываем, что UFT преодолевает присущее RFT экспоненциальное ограничение сложности выборки, впервые показывая, что унифицированное обучение может экспоненциально ускорить сходимость на задачах долгосрочного рассуждения.
Крупные языковые модели (LLMs) демонстрируют выдающиеся способности в сложных рассуждениях благодаря алгоритмам поиска, однако текущие стратегии часто страдают от чрезмерного потребления токенов из-за избыточного исследования семантически эквивалентных шагов. Существующие методы семантического сходства не справляются с точным определением такой эквивалентности в узкоспециализированных контекстах, таких как математические рассуждения. Для решения этой проблемы мы предлагаем EquivPruner — простой, но эффективный подход, который идентифицирует и удаляет семантически эквивалентные действия в процессе поиска рассуждений LLM. Мы также представляем MathEquiv, первый созданный нами набор данных для определения эквивалентности математических утверждений, который позволяет обучать легковесный детектор эквивалентности. Многочисленные эксперименты на различных моделях и задачах показывают, что EquivPruner значительно сокращает потребление токенов, повышая эффективность поиска и часто улучшая точность рассуждений. Например, при применении к модели Qwen2.5-Math-7B-Instruct на наборе данных GSM8K, EquivPruner сократил потребление токенов на 48,1\%, одновременно повысив точность. Наш код доступен по адресу https://github.com/Lolo1222/EquivPruner.
Растущее число авторегрессионных моделей, таких как MAR, FlowAR, xAR и Harmon, используют диффузионную выборку для повышения качества генерации изображений. Однако этот подход приводит к низкой эффективности вывода, поскольку для выборки токена обычно требуется от 50 до 100 шагов диффузии. В данной статье исследуется, как эффективно решить эту проблему. Наша ключевая идея заключается в том, что по мере генерации большего числа токенов в авторегрессионном процессе последующие токены следуют более ограниченным распределениям и их выборка становится проще. Для интуитивного объяснения: если модель сгенерировала часть изображения собаки, оставшиеся токены должны завершить изображение собаки и, следовательно, более ограничены. Эмпирические данные подтверждают нашу гипотезу: на поздних этапах генерации следующие токены могут быть хорошо предсказаны с помощью многослойного перцептрона, демонстрируют низкую дисперсию и следуют более прямолинейным траекториям денизинга от шума к токенам. На основе этого открытия мы представляем метод аннелинга шагов диффузии (DiSA), который не требует обучения и постепенно использует меньше шагов диффузии по мере генерации большего числа токенов, например, начиная с 50 шагов и постепенно уменьшая их до 5 на поздних этапах. Поскольку DiSA основан на нашем открытии, специфичном для диффузии в авторегрессионных моделях, он дополняет существующие методы ускорения, разработанные исключительно для диффузии. DiSA может быть реализован всего несколькими строками кода в существующих моделях и, несмотря на свою простоту, обеспечивает ускорение вывода в 5–10 раз для MAR и Harmon и в 1,4–2,5 раза для FlowAR и xAR, сохраняя при этом качество генерации.
Количественная оценка неопределенности имеет важное значение для оценки надежности и доверия к современным системам искусственного интеллекта. Среди существующих подходов вербализованная неопределенность, при которой модели выражают свою уверенность с помощью естественного языка, стала легковесным и интерпретируемым решением в больших языковых моделях (LLM). Однако ее эффективность в визуально-языковых моделях (VLM) остается недостаточно изученной. В данной работе мы проводим всестороннюю оценку вербализованной уверенности в VLM, охватывая три категории моделей, четыре предметные области задач и три сценария оценки. Наши результаты показывают, что текущие VLM часто демонстрируют заметную некорректную калибровку в различных задачах и условиях. Примечательно, что модели визуального рассуждения (т.е. мышления с использованием изображений) последовательно показывают лучшую калибровку, что указывает на важность модально-специфического рассуждения для надежной оценки неопределенности. Для дальнейшего решения проблем калибровки мы представляем стратегию визуального уверенного запроса (Visual Confidence-Aware Prompting), двухэтапный подход к запросам, который улучшает согласованность уверенности в мультимодальных условиях. В целом, наше исследование подчеркивает внутреннюю некорректную калибровку VLM в различных модальностях. В более широком смысле, наши результаты подчеркивают фундаментальную важность согласованности модальностей и верности моделей для развития надежных мультимодальных систем.
Современные крупные языковые модели, такие как Gemini-1.5, DeepSeek-V3 и Llama-4, всё чаще используют архитектуры Mixture-of-Experts (MoE), которые обеспечивают оптимальный баланс между эффективностью и производительностью, активируя лишь часть модели для каждого токена. Однако академическим исследователям до сих пор не хватает полностью открытой, сквозной платформы MoE для изучения масштабирования, маршрутизации и поведения экспертов. Мы представляем FLAME-MoE — полностью открытый исследовательский набор, состоящий из семи декодерных моделей с активными параметрами от 38 миллионов до 1,7 миллиарда, архитектура которых — 64 эксперта с топ-8 маршрутизацией и 2 общих эксперта — близко отражает современные промышленные LLM. Все конвейеры данных для обучения, скрипты, логи и контрольные точки доступны публично для обеспечения воспроизводимости экспериментов. На шести оценочных задачах FLAME-MoE улучшает среднюю точность до 3,4 пунктов по сравнению с плотными базовыми моделями, обученными с одинаковым количеством FLOP. Используя полную прозрачность трассировки обучения, мы представляем начальные анализы, показывающие, что (i) эксперты всё больше специализируются на различных подмножествах токенов, (ii) матрицы совместной активации остаются разреженными, отражая разнообразное использование экспертов, и (iii) поведение маршрутизации стабилизируется на ранних этапах обучения. Весь код, логи обучения и контрольные точки модели доступны по адресу https://github.com/cmu-flame/FLAME-MoE.
Современные мультимодальные генераторы изображений, такие как GPT-4o, Gemini 2.0 Flash и Gemini 2.5 Pro, демонстрируют высокую способность следовать сложным инструкциям, редактировать изображения и сохранять согласованность концепций. Однако их оценка до сих пор осуществляется с помощью разрозненных инструментов: тестов для генерации изображений по тексту (T2I), которые не учитывают мультимодальные условия, и специализированных тестов для генерации изображений, которые игнорируют композиционную семантику и общие знания. Мы предлагаем MMIG-Bench, всеобъемлющий бенчмарк для мультимодальной генерации изображений, который объединяет эти задачи, предоставляя 4 850 текстовых запросов с богатой аннотацией и 1 750 эталонных изображений с несколькими ракурсами, охватывающих 380 категорий, включая людей, животных, объекты и художественные стили. MMIG-Bench оснащен трехуровневой системой оценки: (1) низкоуровневые метрики для визуальных артефактов и сохранения идентичности объектов; (2) новая метрика Aspect Matching Score (AMS): среднеуровневая метрика на основе визуального вопросно-ответного анализа, обеспечивающая детальное соответствие между запросом и изображением и демонстрирующая сильную корреляцию с человеческими оценками; и (3) высокоуровневые метрики для оценки эстетики и предпочтений человека. С использованием MMIG-Bench мы протестировали 17 современных моделей, включая Gemini 2.5 Pro, FLUX, DreamBooth и IP-Adapter, и проверили наши метрики на основе 32 тысяч человеческих оценок, получив глубокие инсайты в архитектуру и дизайн данных. Мы опубликуем набор данных и код для оценки, чтобы способствовать строгой и унифицированной оценке и ускорить будущие инновации в области мультимодальной генерации изображений.
Современные крупные языковые модели (LLM) продемонстрировали зарождающиеся способности в задачах социального интеллекта, включая разрешение импликатур (Sravanthi et al., 2024) и рассуждения на основе теории сознания (Shapira et al., 2024), что требует значительного прагматического понимания. Однако то, как LLM приобретают эту компетенцию в процессе обучения, остается малоизученным. В данной работе мы представляем ALTPRAG — набор данных, основанный на прагматической концепции альтернатив, предназначенный для оценки способности LLM на разных этапах обучения точно выводить тонкие намерения говорящего. Каждый пример включает два контекстуально уместных, но прагматически различных продолжения, что позволяет проводить детальную оценку как прагматической интерпретации, так и контрастного рассуждения. Мы систематически оцениваем 22 LLM на ключевых этапах обучения: предварительное обучение, контролируемая тонкая настройка (SFT) и оптимизация предпочтений, чтобы изучить развитие прагматической компетенции. Наши результаты показывают, что даже базовые модели демонстрируют заметную чувствительность к прагматическим сигналам, которая последовательно улучшается с увеличением масштаба модели и данных. Кроме того, SFT и RLHF вносят дополнительный вклад, особенно в когнитивно-прагматические рассуждения. Эти результаты подчеркивают прагматическую компетенцию как возникающее и композиционное свойство обучения LLM и предлагают новые идеи для согласования моделей с человеческими коммуникативными нормами.
Крупные мультимодальные базовые модели, особенно в областях обработки языка и компьютерного зрения, значительно продвинули решение различных задач, включая робототехнику, автономное вождение, информационный поиск и закрепление знаний. Однако многие из этих моделей воспринимают объекты как неделимые, упуская из виду составляющие их компоненты. Понимание этих компонентов и связанных с ними возможностей предоставляет ценные инсайты о функциональности объекта, что является основополагающим для выполнения широкого спектра задач. В данной работе мы представляем новый эталонный набор данных для реального мира, InstructPart, включающий ручную разметку сегментации частей объектов и инструкции, ориентированные на задачи, для оценки производительности современных моделей в понимании и выполнении задач на уровне частей в повседневных контекстах. В ходе наших экспериментов мы демонстрируем, что сегментация частей, ориентированная на задачи, остается сложной проблемой даже для современных моделей, объединяющих зрение и язык (Vision-Language Models, VLMs). В дополнение к нашему эталонному набору данных мы представляем простую базовую модель, которая достигает двукратного улучшения производительности за счет тонкой настройки на нашем наборе данных. С помощью нашего набора данных и эталонного теста мы стремимся способствовать исследованиям в области сегментации частей, ориентированной на задачи, и повысить применимость VLMs в различных областях, включая робототехнику, виртуальную реальность, информационный поиск и другие смежные направления. Сайт проекта: https://zifuwan.github.io/InstructPart/.
Недавние достижения, такие как метод Chain-of-Thought prompting, значительно улучшили возможности крупных языковых моделей (LLM) в задачах медицинского рассуждения в условиях нулевого сэмплинга. Однако методы, основанные на подсказках, часто остаются поверхностными и неустойчивыми, в то время как специализированные медицинские LLM страдают от плохой обобщаемости при сдвигах распределения данных и ограниченной адаптируемости к новым клиническим сценариям. Для решения этих проблем мы представляем TAGS — фреймворк для тестирования, который объединяет универсальную модель общего назначения с узкоспециализированной моделью, чтобы предложить дополнительные перспективы без необходимости тонкой настройки или обновления параметров. Для поддержки этого процесса рассуждения "универсал-специалист" мы вводим два вспомогательных модуля: иерархический механизм извлечения, который предоставляет примеры на разных уровнях, выбирая их на основе семантического сходства и сходства на уровне логики, и модуль оценки надежности, который анализирует согласованность рассуждений для агрегации окончательных ответов. TAGS демонстрирует высокую производительность на девяти бенчмарках MedQA, повышая точность GPT-4o на 13,8%, DeepSeek-R1 на 16,8% и улучшая базовую 7B-модель с 14,1% до 23,9%. Эти результаты превосходят несколько специализированных медицинских LLM, при этом не требуя обновления параметров. Код будет доступен по адресу https://github.com/JianghaoWu/TAGS.
С развитием крупных аудио-языковых моделей (LALMs), которые расширяют возможности крупных языковых моделей (LLMs) за счет добавления слуховых функций, ожидается, что эти модели продемонстрируют универсальную компетентность в различных слуховых задачах. Хотя появилось множество тестов для оценки производительности LALMs, они остаются разрозненными и не имеют структурированной таксономии. Чтобы устранить этот пробел, мы проводим всесторонний обзор и предлагаем систематическую таксономию для оценки LALMs, классифицируя их по четырем измерениям в зависимости от их целей: (1) Общая слуховая осведомленность и обработка, (2) Знания и рассуждения, (3) Диалоговая способность и (4) Справедливость, безопасность и надежность. Мы предоставляем подробные обзоры в каждой категории и выделяем вызовы в этой области, предлагая взгляды на перспективные направления будущих исследований. Насколько нам известно, это первый обзор, специально посвященный оценке LALMs, предоставляющий четкие рекомендации для сообщества. Мы опубликуем коллекцию рассмотренных статей и будем активно поддерживать её для содействия дальнейшим достижениям в этой области.
Несмотря на недавние достижения в области универсальной робототехники, политики роботов всё ещё значительно отстают от базовых возможностей человека в реальном мире. Люди постоянно взаимодействуют с физической средой, однако этот богатый источник данных остаётся в значительной степени неиспользованным в обучении роботов. Мы предлагаем EgoZero — минималистичную систему, которая обучает устойчивые политики манипуляции на основе демонстраций человека, записанных с помощью умных очков Project Aria, и без использования данных от роботов. EgoZero позволяет: (1) извлекать полные, исполняемые роботом действия из демонстраций человека, снятых в естественных условиях с эгоцентрической перспективы, (2) сжимать визуальные наблюдения человека в представления состояний, независимые от морфологии, и (3) обучать замкнутые политики, которые обобщаются морфологически, пространственно и семантически. Мы внедряем политики EgoZero на роботе-манипуляторе Franka Panda и демонстрируем передачу навыков без предварительного обучения с успешностью 70% в 7 задачах манипуляции, при этом сбор данных для каждой задачи занимает всего 20 минут. Наши результаты показывают, что данные, полученные от человека в естественных условиях, могут служить масштабируемой основой для обучения роботов в реальном мире, прокладывая путь к будущему с изобилием разнообразных и естественных данных для обучения роботов. Код и видеоматериалы доступны по адресу https://egozero-robot.github.io.
Извлечение метаданных является ключевым для каталогизации и сохранения наборов данных, обеспечивая эффективное обнаружение исследований и их воспроизводимость, особенно учитывая текущий экспоненциальный рост в научных исследованиях. Хотя Masader (Alyafeai et al., 2021) заложил основу для извлечения широкого спектра атрибутов метаданных из научных статей, посвященных арабским NLP-наборам данных, он в значительной степени опирается на ручную аннотацию. В данной статье мы представляем MOLE — фреймворк, который использует большие языковые модели (LLM) для автоматического извлечения атрибутов метаданных из научных статей, охватывающих наборы данных на языках, отличных от арабского. Наша схематическая методология обрабатывает целые документы в различных форматах входных данных и включает надежные механизмы валидации для обеспечения согласованного вывода. Кроме того, мы представляем новый эталон для оценки прогресса исследований в этой области. Благодаря систематическому анализу длины контекста, обучения с малым количеством примеров и интеграции веб-поиска, мы демонстрируем, что современные LLM показывают многообещающие результаты в автоматизации этой задачи, подчеркивая необходимость дальнейших улучшений для обеспечения стабильной и надежной работы. Мы публикуем код: https://github.com/IVUL-KAUST/MOLE и набор данных: https://huggingface.co/datasets/IVUL-KAUST/MOLE для исследовательского сообщества.
В данной работе исследуется возникновение интерпретируемых категориальных признаков в крупных языковых моделях (LLM), анализируется их поведение на различных этапах обучения (временной аспект), в слоях трансформеров (пространственный аспект) и при различных размерах моделей (масштаб). Используя разреженные автокодировщики для механистической интерпретируемости, мы определяем, когда и где возникают конкретные семантические концепции в нейронных активациях. Результаты показывают четкие временные и масштабные пороги для появления признаков в различных областях. Примечательно, что пространственный анализ выявляет неожиданную семантическую реактивацию, когда признаки из ранних слоев повторно возникают в более поздних слоях, что ставит под сомнение стандартные предположения о динамике представлений в моделях трансформеров.
Методы управления поведением крупных языковых моделей (LLM) без изменения их параметров зарекомендовали себя как эффективные и целенаправленные инструменты. Однако мультимодальные крупные языковые модели (MLLM) пока не обладают аналогичным набором техник, отчасти из-за их недавнего появления и архитектурного разнообразия. Вдохновленные этим пробелом, мы исследуем, можно ли управлять MLLM с помощью векторов, полученных из их текстового ядра LLM, используя разреженные автокодировщики (SAE), метод среднего сдвига (mean shift) и линейное зондирование. Мы обнаруживаем, что управление на основе текста последовательно повышает точность мультимодальных моделей в различных архитектурах MLLM и визуальных задачах. В частности, метод среднего сдвига увеличивает точность определения пространственных отношений на CV-Bench до +7,3%, а точность подсчета — до +3,3%, превосходя методы подсказок и демонстрируя сильную обобщаемость на данных, выходящих за пределы распределения. Эти результаты подчеркивают текстовые векторы управления как мощный и эффективный механизм для улучшения заземления в MLLM с минимальными дополнительными затратами на сбор данных и вычислительные ресурсы.
Оффлайн обучение с подкреплением, ориентированное на цели (GCRL), представляет собой практическую парадигму обучения, в которой политики достижения целей обучаются на основе обширных немаркированных (без вознаграждения) наборов данных без дополнительного взаимодействия со средой. Однако оффлайн GCRL по-прежнему испытывает трудности с задачами, требующими долгосрочного планирования, даже с учетом недавних достижений, использующих иерархические структуры политик, такие как HIQL. Выявив коренную причину этой проблемы, мы наблюдаем следующие инсайты: во-первых, узкие места в производительности в основном связаны с неспособностью высокоуровневой политики генерировать подходящие подцели. Во-вторых, при обучении высокоуровневой политики в условиях долгосрочного планирования знак сигнала преимущества часто оказывается некорректным. Таким образом, мы утверждаем, что улучшение функции ценности для получения четкого сигнала преимущества при обучении высокоуровневой политики является ключевым. В данной статье мы предлагаем простое, но эффективное решение: обучение ценности с учетом временной абстракции, названное OTA, которое интегрирует временную абстракцию в процесс обучения на основе временных разностей. Модифицируя обновление ценности с учетом опций, предложенная схема обучения сокращает эффективную длину горизонта, что позволяет получать более точные оценки преимущества даже в условиях долгосрочного планирования. Экспериментально мы показываем, что высокоуровневая политика, извлеченная с использованием функции ценности OTA, демонстрирует высокую производительность на сложных задачах из OGBench, недавно предложенного бенчмарка для оффлайн GCRL, включая навигацию в лабиринте и визуальные среды для манипуляции роботами.