HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

36 papers found

DeepAnalyze: Агентные большие языковые модели для автономной науки о данных
DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

Oct 19

ByShaolei Zhang, Ju Fan, Meihao Fan, Guoliang Li, Xiaoyong Du

Автономная обработка данных, начиная с исходных данных и заканчивая глубокими аналитическими отчетами, долгое время оставалась сложной задачей, но теперь становится осуществимой благодаря появлению мощных больших языковых моделей (LLM). Недавние агенты на основе рабочих процессов показали многообещающие результаты в решении конкретных задач, связанных с данными, но остаются принципиально ограниченными в достижении полной автономности из-за их зависимости от предопределенных рабочих процессов. В данной статье мы представляем DeepAnalyze-8B — первую агентскую LLM, разработанную для автономной обработки данных, способную автоматически выполнять сквозной процесс от источников данных до глубоких аналитических отчетов. Для решения задач высокой сложности в области обработки данных мы предлагаем учебно-ориентированную парадигму агентского обучения, которая имитирует траекторию обучения человеческих специалистов по данным, позволяя LLM постепенно приобретать и интегрировать множество навыков в реальных условиях. Мы также представляем фреймворк синтеза траекторий, основанный на данных, который создает высококачественные обучающие данные. Благодаря агентскому обучению DeepAnalyze учится выполнять широкий спектр задач, начиная с ответов на вопросы по данным и специализированных аналитических задач и заканчивая открытыми исследованиями данных. Эксперименты показывают, что, имея всего 8 миллиардов параметров, DeepAnalyze превосходит предыдущих агентов на основе рабочих процессов, построенных на самых передовых проприетарных LLM. Модель, код и обучающие данные DeepAnalyze находятся в открытом доступе, что открывает путь к автономной обработке данных.

PICABench: Насколько мы близки к физически реалистичному редактированию изображений?
PICABench: How Far Are We from Physically Realistic Image Editing?

Oct 20

ByYuandong Pu, Le Zhuo, Songhao Han, Jinbo Xing, Kaiwen Zhu, Shuo Cao, Bin Fu, Si Liu, Hongsheng Li, Yu Qiao, Wenlong Zhang, Xi Chen, Yihao Liu

Редактирование изображений достигло значительного прогресса в последнее время. Современные модели редактирования уже способны следовать сложным инструкциям для манипуляции исходным содержимым. Однако, помимо выполнения инструкций по редактированию, сопутствующие физические эффекты являются ключом к реалистичности генерации. Например, удаление объекта должно также устранять его тень, отражения и взаимодействия с близлежащими объектами. К сожалению, существующие модели и бенчмарки в основном сосредоточены на выполнении инструкций, но упускают из виду эти физические эффекты. Итак, насколько далеко мы находимся от физически реалистичного редактирования изображений? Чтобы ответить на этот вопрос, мы представляем PICABench, который систематически оценивает физическую реалистичность по восьми подразделам (охватывающим оптику, механику и переходы состояний) для большинства распространенных операций редактирования (добавление, удаление, изменение атрибутов и т.д.). Мы также предлагаем PICAEval, надежный протокол оценки, который использует VLM-как-судью с пошаговыми, региональными аннотациями и вопросами от человека. Помимо бенчмаркинга, мы также исследуем эффективные решения, изучая физику из видео, и создаем обучающий набор данных PICA-100K. После оценки большинства основных моделей мы наблюдаем, что физическая реалистичность остается сложной проблемой с большим пространством для исследований. Мы надеемся, что наш бенчмарк и предложенные решения послужат основой для будущих работ, направленных на переход от наивного редактирования содержимого к физически согласованной реалистичности.

Глиф: Масштабирование контекстных окон с помощью визуально-текстового сжатия
Glyph: Scaling Context Windows via Visual-Text Compression

Oct 20

ByJiale Cheng, Yusen Liu, Xinyu Zhang, Yulin Fei, Wenyi Hong, Ruiliang Lyu, Weihan Wang, Zhe Su, Xiaotao Gu, Xiao Liu, Yushi Bai, Jie Tang, Hongning Wang, Minlie Huang

Крупные языковые модели (LLMs) всё чаще полагаются на моделирование длинного контекста для задач, таких как понимание документов, анализ кода и многошаговые рассуждения. Однако масштабирование окон контекста до уровня в миллион токенов приводит к непомерным вычислительным и затратам памяти, что ограничивает практическую применимость LLMs с длинным контекстом. В данной работе мы предлагаем альтернативный подход — масштабирование визуального контекста — для решения этой проблемы. Вместо расширения последовательностей на основе токенов мы предлагаем Glyph, фреймворк, который преобразует длинные тексты в изображения и обрабатывает их с помощью моделей визуального языка (VLMs). Этот подход существенно сжимает текстовые входные данные, сохраняя при этом семантическую информацию, и мы дополнительно разрабатываем генетический поиск, управляемый LLM, для определения оптимальных конфигураций визуального рендеринга, балансирующих точность и сжатие. В ходе обширных экспериментов мы демонстрируем, что наш метод достигает сжатия токенов в 3-4 раза при сохранении точности, сопоставимой с ведущими LLMs, такими как Qwen3-8B, на различных бенчмарках с длинным контекстом. Это сжатие также приводит к ускорению предварительного заполнения и декодирования примерно в 4 раза и ускорению обучения SFT примерно в 2 раза. Более того, при экстремальном сжатии VLM с контекстом 128K может масштабироваться для обработки текстовых задач уровня 1M токенов. Кроме того, визуализированные текстовые данные полезны для реальных многомодальных задач, таких как понимание документов. Наш код и модель доступны по адресу https://github.com/thu-coai/Glyph.

FineVision: Открытые данные — это всё, что вам нужно
FineVision: Open Data Is All You Need

Oct 20

ByLuis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti

Развитие моделей, объединяющих зрение и язык (VLMs), сдерживается фрагментированным ландшафтом неоднородных и загрязнённых публичных наборов данных. Мы представляем FineVision — тщательно собранный, обработанный и унифицированный корпус из 24 миллионов образцов, крупнейший открытый ресурс такого рода. Мы объединили более 200 источников в 185 подмножеств с помощью полуавтоматизированного конвейера с участием человека: автоматизация выполняет массовую загрузку и сопоставление схем, а рецензенты проверяют сопоставления и выборочно проверяют результаты, чтобы убедиться в точности использования аннотаций, корректности форматирования, разнообразии и безопасности; обнаруженные проблемы запускают целевые исправления и повторные прогоны. Рабочий процесс также включает строгую дедупликацию внутри и между источниками, а также очистку от загрязнений по сравнению с 66 публичными бенчмарками. FineVision также охватывает задачи, связанные с агентами и графическими интерфейсами, с унифицированным пространством действий; рецензенты проверяют схемы и анализируют выборку траекторий, чтобы подтвердить их исполнимость. Модели, обученные на FineVision, стабильно превосходят модели, обученные на существующих открытых смесях данных, в широком наборе оценок, что подчеркивает преимущества масштаба, чистоты данных и сбалансированной автоматизации с участием человека. Мы публикуем корпус и инструменты для обработки данных, чтобы ускорить исследования в области VLMs, ориентированные на данные.

RL позволяет MLLM видеть лучше, чем SFT.
RL makes MLLMs see better than SFT

Oct 18

ByJunha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo

Доминирующее предположение в исследованиях мультимодальных языковых моделей (MLLM) заключается в том, что их производительность в значительной степени наследуется от базовой языковой модели (LLM), учитывая её огромный масштаб параметров и выдающиеся возможности. Это создало пробел в понимании роли визуального энкодера, который определяет, как MLLM воспринимают изображения. Недавний сдвиг в парадигмах обучения MLLM, от контролируемого тонкого настройки (SFT) к обучению с подкреплением (RL), усиливает это упущение — а именно, значительный недостаток анализа того, как такое обучение изменяет визуальный энкодер, а также саму MLLM. Чтобы устранить этот пробел, мы сначала исследуем влияние стратегий обучения на MLLM, где RL демонстрирует явное преимущество перед SFT в задачах, сильно связанных с визуальным восприятием, таких как VQA. Вдохновлённые этим, мы проводим критический, но недостаточно изученный анализ визуального энкодера MLLM с помощью разнообразных и глубоких экспериментов, начиная от классификации и сегментации на ImageNet до визуализации градиентов. Наши результаты показывают, что стратегия пост-обучения MLLM (т.е. SFT или RL) не только приводит к различным результатам в задачах, связанных с MLLM, но и фундаментально изменяет лежащие в основе визуальные представления. В частности, ключевой вывод нашего исследования заключается в том, что RL создаёт более сильные и точно локализованные визуальные представления по сравнению с SFT, повышая способности визуального энкодера для MLLM. Затем мы переосмысливаем наши выводы в виде простого рецепта для создания мощных визуальных энкодеров для MLLM — Preference-Instructed Vision OpTimization (PIVOT). При интеграции в MLLM, визуальный энкодер, обученный с использованием PIVOT, превосходит даже более крупные и интенсивно обученные аналоги, несмотря на то, что требует менее 1% вычислительных затрат по сравнению со стандартным предварительным обучением визуальных моделей. Этот результат открывает эффективный и экономичный путь для улучшения визуальных компонентов MLLM. Страница проекта доступна по адресу https://june-page.github.io/pivot/.

TrajSelector: Использование латентных представлений для эффективного и результативного выбора лучшего из N в крупных моделях рассуждений
TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model

Oct 18

ByBin Yu, Xinming Wang, Shijie Lian, Haotian Li, Changti Wu, Ruina Hu, Bailing Wang, Yuliang Wei, Kai Chen

Крупные языковые модели (LLM) демонстрируют значительный прогресс в выполнении сложных задач логического рассуждения, во многом благодаря парадигмам масштабирования на этапе тестирования (TTS), которые выделяют дополнительные вычислительные ресурсы во время вывода. Среди них внешнее TTS (в частности, парадигма выбора "Лучший из N") обеспечивает масштабируемое улучшение производительности за счет выбора из множества независимо сгенерированных траекторий рассуждений. Однако этот подход сталкивается с ключевыми ограничениями: (i) высокие вычислительные затраты на использование моделей оценки процесса, (ii) недостаточное использование внутренних латентных представлений LLM. Мы представляем TrajSelector, эффективный и результативный фреймворк "Лучший из N", который использует скрытые состояния в модели-семплере для оценки на уровне процесса. Легковесный верификатор (всего 0,6 млрд параметров) оценивает качество пошаговых траекторий, а затем агрегирует эти оценки для определения оптимальной траектории рассуждений. Наш фреймворк использует полностью управляемый данными, сквозной процесс обучения, который устраняет зависимость от массивных аннотаций на уровне шагов. Экспериментальные результаты на пяти бенчмарках показывают, что TrajSelector обеспечивает стабильное улучшение производительности. В настройках "Лучший из 32" он превосходит метод большинства голосов на 4,61% по точности и опережает существующие модели оценки процесса на 4,31% до 12,21%, сохраняя при этом более низкие затраты на вывод.

К смешанно-модальному поиску для универсального поисково-усиленного генеративного подхода
Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

Oct 20

ByChenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou

Генерация с усилением поиска (Retrieval-Augmented Generation, RAG) стала мощной парадигмой для улучшения больших языковых моделей (LLMs) за счет извлечения релевантных документов из внешнего корпуса. Однако существующие системы RAG в основном ориентированы на одноканальные текстовые документы и часто оказываются недостаточно эффективными в реальных сценариях, где как запросы, так и документы могут содержать смешанные модальности (например, текст и изображения). В данной работе мы рассматриваем задачу Универсальной Генерации с Усилением Поиска (Universal Retrieval-Augmented Generation, URAG), которая предполагает извлечение и анализ информации смешанных модальностей для улучшения генерации в задачах, связанных с обработкой визуально-текстовых данных. Для решения этой задачи мы предлагаем Nyx — унифицированный извлекатель смешанных модальностей, адаптированный для сценариев URAG. Чтобы преодолеть недостаток реалистичных данных смешанных модальностей, мы разработали четырехэтапный автоматизированный конвейер для генерации и фильтрации, используя веб-документы для создания NyxQA — набора данных, содержащего разнообразные пары вопросов и ответов смешанных модальностей, которые лучше отражают реальные информационные потребности. На основе этого высококачественного набора данных мы применяем двухэтапную структуру обучения для Nyx: сначала выполняем предварительное обучение на NyxQA вместе с различными открытыми наборами данных для извлечения, а затем проводим контролируемую тонкую настройку с использованием обратной связи от моделей обработки визуально-текстовых данных (VLMs) для согласования результатов извлечения с предпочтениями генерации. Экспериментальные результаты показывают, что Nyx не только демонстрирует конкурентоспособные результаты на стандартных тестах RAG для текстовых данных, но и превосходит в более общем и реалистичном сценарии URAG, значительно улучшая качество генерации в задачах обработки визуально-текстовых данных.

QueST: Стимулирование языковых моделей для генерации сложных задач
QueST: Incentivizing LLMs to Generate Difficult Problems

Oct 20

ByHanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei

Крупные языковые модели демонстрируют высокую производительность в задачах, требующих логического мышления, решая задачи уровня соревнований по программированию и математике. Однако их масштабируемость ограничена наборами данных, размеченных вручную, и отсутствием крупномасштабных сложных данных для обучения в области программирования. Существующие наборы данных для соревновательного программирования содержат лишь тысячи или десятки тысяч задач. Предыдущие методы генерации синтетических данных основывались либо на расширении существующих наборов инструкций, либо на выборе сложных задач из данных, размеченных вручную. В данной работе мы предлагаем QueST — новый фреймворк, который сочетает в себе выборку графов с учетом сложности и тонкую настройку с отбраковкой, также учитывающую сложность, что позволяет напрямую оптимизировать специализированные генераторы для создания сложных задач по программированию. Наши обученные генераторы демонстрируют превосходные возможности по сравнению даже с GPT-4o в создании сложных задач, которые улучшают производительность в последующих задачах. Мы используем QueST для генерации крупномасштабных синтетических задач по программированию, которые затем применяем для дистилляции знаний из мощных моделей-учителей с длинными цепочками рассуждений или для проведения обучения с подкреплением для более компактных моделей, что доказывает свою эффективность в обоих сценариях. Наши эксперименты по дистилляции демонстрируют значительное улучшение производительности. В частности, после тонкой настройки модели Qwen3-8B-base на 100 тыс. сложных задач, сгенерированных QueST, мы превосходим производительность оригинальной Qwen3-8B на тесте LiveCodeBench. С дополнительными 112 тыс. примерами (т.е. 28 тыс. задач, написанных вручную, в паре с несколькими синтетическими решениями), наша 8B модель достигает производительности значительно более крупной модели DeepSeek-R1-671B. Эти результаты указывают на то, что генерация сложных задач с помощью QueST предлагает эффективный и масштабируемый подход для продвижения границ соревновательного программирования и логического мышления в крупных языковых моделях.

Когда применять ансамблирование: определение токен-уровневых точек для стабильного и быстрого ансамблирования больших языковых моделей
When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

Oct 17

ByHeecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang

Ансамблирование больших языковых моделей (LLM) привлекает внимание как перспективный подход, позволяющий превзойти производительность отдельных моделей за счет использования их взаимодополняющих сильных сторон. В частности, агрегирование распределений вероятностей следующего токена для выбора следующего токена показало свою эффективность в различных задачах. Однако, хотя этот метод успешен для кратких ответов, его применение к генерации длинных текстов остается недостаточно изученным. В данной работе мы показываем, что использование существующих методов ансамблирования в генерации длинных текстов требует тщательного выбора позиций для ансамблирования, поскольку стандартная практика ансамблирования на каждом токене часто приводит к ухудшению производительности. Мы выделяем два ключевых фактора для определения этих позиций: несоответствие токенизации между моделями и согласованность в их распределениях вероятностей следующего токена. На основе этого мы предлагаем SAFE (Stable And Fast LLM Ensembling), фреймворк, который выборочно ансамблирует, учитывая оба этих фактора. Для дальнейшего повышения стабильности мы вводим стратегию заострения вероятностей, которая объединяет вероятности, распределенные по нескольким субтокенам, представляющим одно и то же слово, в один репрезентативный токен. Наши эксперименты на различных бенчмарках, включая MATH500 и BBH, демонстрируют, что SAFE превосходит существующие методы как по точности, так и по эффективности, достигая улучшений даже при ансамблировании менее 1% токенов.

AION-1: Универсальная фундаментальная модель для астрономических наук
AION-1: Omnimodal Foundation Model for Astronomical Sciences

Oct 20

ByLiam Parker, Francois Lanusse, Jeff Shen, Ollie Liu, Tom Hehir, Leopoldo Sarra, Lucas Meyer, Micah Bowles, Sebastian Wagner-Carena, Helen Qu, Siavash Golkar, Alberto Bietti, Hatim Bourfoune, Nathan Casserau, Pierre Cornette, Keiya Hirashima, Geraud Krawezik, Ruben Ohana, Nicholas Lourie, Michael McCabe, Rudy Morel, Payel Mukhopadhyay, Mariel Pettee, Bruno Regaldo-Saint Blancard, Kyunghyun Cho, Miles Cranmer, Shirley Ho

Хотя базовые модели продемонстрировали перспективность в различных областях, астрономия до сих пор не имеет единой структуры для совместного моделирования её чрезвычайно разнообразных модальностей данных. В данной статье мы представляем AION-1 — семейство крупномасштабных мультимодальных базовых моделей для астрономии. AION-1 интегрирует гетерогенные данные изображений, спектроскопии и скалярные данные с использованием двухэтапной архитектуры: модально-специфичной токенизации, за которой следует трансформерное маскированное моделирование кросс-модальных последовательностей токенов. Модель предварительно обучается на пяти крупномасштабных обзорах: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) и Gaia. Эти данные охватывают более 200 миллионов наблюдений звёзд, галактик и квазаров. С использованием одного замороженного энкодера AION-1 демонстрирует высокие результаты на широком спектре задач, включая оценку свойств галактик и звёзд, классификацию морфологии галактик, поиск по сходству, сегментацию изображений галактик и спектральное супер-разрешение. Мы выпускаем варианты модели AION-1 с количеством параметров от 300 миллионов до 3,1 миллиарда. Помимо астрономии, AION-1 предоставляет масштабируемый шаблон для мультимодальных научных базовых моделей, способных бесшовно интегрировать зашумлённые, инструментально-специфичные наблюдения. Весь код, токенизаторы, предварительно обученные веса и лёгкий набор для оценки выпускаются под открытой лицензией.

Визуальные авторегрессионные модели превосходят диффузионные модели по масштабируемости времени вывода
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

Oct 19

ByErik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos

Хотя масштабирование во время вывода с использованием поиска произвело революцию в больших языковых моделях, перенести эти достижения на генерацию изображений оказалось сложно. Недавние попытки применить стратегии поиска к непрерывным диффузионным моделям показали ограниченные преимущества, причем простой случайный выбор часто оказывается наиболее эффективным. Мы демонстрируем, что дискретная, последовательная природа визуальных авторегрессионных моделей позволяет эффективно использовать поиск для генерации изображений. Мы показываем, что поиск по лучу значительно улучшает генерацию изображений по тексту, позволяя авторегрессионной модели с 2 миллиардами параметров превзойти диффузионную модель с 12 миллиардами параметров в различных тестах. Систематические исследования показывают, что это преимущество связано с дискретным пространством токенов, которое позволяет раннее отсечение и повторное использование вычислений, а наш анализ верификатора подчеркивает компромиссы между скоростью и способностью к рассуждению. Эти результаты указывают на то, что архитектура модели, а не только масштаб, играет ключевую роль в оптимизации вывода в визуальной генерации.

Аннотационно-эффективное универсальное согласование честности
Annotation-Efficient Universal Honesty Alignment

Oct 20

ByShiyu Ni, Keping Bi, Jiafeng Guo, Minghao Tang, Jingtong Wu, Zengxin Han, Xueqi Cheng

Выравнивание честности — способность крупных языковых моделей (LLM) распознавать границы своих знаний и выражать калиброванную уверенность — является ключевым для надежного внедрения. Существующие методы либо полагаются на оценку уверенности без обучения (например, вероятности токенов, самосогласованность), либо на калибровку с обучением с использованием аннотаций правильности. Хотя эти методы эффективны, достижение универсального выравнивания честности с калибровкой на основе обучения требует дорогостоящего масштабного аннотирования. Для поддержки обучения с минимальным объемом аннотаций мы представляем Elicitation-Then-Calibration (EliCal) — двухэтапную структуру, которая сначала выявляет внутреннюю уверенность с использованием недорогого контроля самосогласованности, а затем калибрует эту уверенность с небольшим набором аннотаций правильности. Для проведения масштабного исследования мы выпускаем HonestyBench — бенчмарк, охватывающий десять наборов данных с вопросами в свободной форме, включающий 560 тыс. обучающих и 70 тыс. оценочных примеров, аннотированных сигналами правильности и самосогласованности. Эксперименты показывают, что EliCal достигает почти оптимального выравнивания с использованием всего 1 тыс. аннотаций правильности (0,18% от полного контроля) и демонстрирует лучшую производительность по выравниванию на неизвестных задачах MMLU по сравнению с базовым подходом, использующим только калибровку, предлагая масштабируемое решение для универсального выравнивания честности в LLM.

Uniworld-V2: Усиление редактирования изображений с помощью тонкой настройки с учетом негативных аспектов диффузии и неявной обратной связи от MLLM
Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

Oct 19

ByZongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan

Редактирование изображений на основе инструкций достигло значительных успехов; однако модели, обученные исключительно с помощью контролируемой тонкой настройки, часто переобучаются на аннотированных шаблонах, что ограничивает их способность исследовать и обобщать за пределами обучающих распределений. В связи с этим мы представляем Edit-R1 — новый посттренировочный фреймворк для редактирования изображений на основе инструкций, основанный на оптимизации политик. В частности, мы используем Diffusion Negative-aware Finetuning (DiffusionNFT) — метод оптимизации политик, не требующий вычисления правдоподобия и согласованный с процессом прямого согласования потоков, что позволяет использовать сэмплеры более высокого порядка и более эффективное обучение. Еще одной ключевой проблемой является отсутствие универсальной модели вознаграждения, обусловленное разнообразием инструкций и задач редактирования. Для преодоления этого разрыва мы применяем Мультимодальную Большую Языковую Модель (MLLM) в качестве унифицированной, не требующей обучения модели вознаграждения, используя её выходные логиты для предоставления детализированной обратной связи. Кроме того, мы тщательно разрабатываем механизм фильтрации с низкой дисперсией для снижения шума в оценках MLLM и стабилизации оптимизации. UniWorld-V2, обученная с использованием этого фреймворка, достигает наилучших результатов на бенчмарках ImgEdit и GEdit-Bench, набирая 4.49 и 7.83 балла соответственно. Важно отметить, что наш фреймворк является модельно-независимым, обеспечивая значительное улучшение производительности при применении к различным базовым моделям, таким как Qwen-Image-Edit и FLUX-Kontext, что демонстрирует его широкую применимость. Код и модели доступны по адресу https://github.com/PKU-YuanGroup/UniWorld-V2.

ConsistEdit: Высокосогласованное и точное визуальное редактирование без обучения
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

Oct 20

ByZixin Yin, Ling-Hao Chen, Lionel Ni, Xili Dai

Последние достижения в методах управления вниманием без обучения позволили обеспечить гибкие и эффективные возможности редактирования на основе текста для существующих моделей генерации. Однако современные подходы сталкиваются с трудностями в одновременном достижении высокой силы редактирования и сохранения согласованности с исходным материалом. Это ограничение становится особенно критичным в многократном и видео-редактировании, где визуальные ошибки могут накапливаться со временем. Более того, большинство существующих методов обеспечивают глобальную согласованность, что ограничивает их способность изменять отдельные атрибуты, такие как текстура, сохраняя при этом другие, тем самым затрудняя детализированное редактирование. Недавний архитектурный переход от U-Net к MM-DiT привел к значительным улучшениям в генеративной производительности и представил новый механизм интеграции текстовых и визуальных модальностей. Эти достижения открывают путь к преодолению проблем, которые предыдущие методы не смогли решить. В результате детального анализа MM-DiT мы выделяем три ключевых аспекта, касающихся его механизмов внимания. На основе этих аспектов мы предлагаем ConsistEdit — новый метод управления вниманием, специально разработанный для MM-DiT. ConsistEdit включает управление вниманием только на основе визуальных данных, предварительное слияние с использованием масок и дифференцированное управление токенами запроса, ключа и значения для создания согласованных и соответствующих запросу правок. Многочисленные эксперименты демонстрируют, что ConsistEdit достигает наилучших результатов в широком спектре задач редактирования изображений и видео, включая как сценарии с сохранением структуры, так и без нее. В отличие от предыдущих методов, это первый подход, который выполняет редактирование на всех этапах вывода и слоях внимания без ручной настройки, значительно повышая надежность и согласованность, что позволяет реализовать устойчивое многократное и многорегиональное редактирование. Кроме того, он поддерживает прогрессивную настройку структурной согласованности, обеспечивая более точный контроль.

Исполняемые графы знаний для воспроизведения исследований в области искусственного интеллекта
Executable Knowledge Graphs for Replicating AI Research

Oct 20

ByYujie Luo, Zhuoyun Yu, Xuehai Wang, Yuqi Zhu, Ningyu Zhang, Lanning Wei, Lun Du, Da Zheng, Huajun Chen

Воспроизведение исследований в области искусственного интеллекта является важной, но сложной задачей для агентов, работающих с большими языковыми моделями (LLM). Существующие подходы часто сталкиваются с трудностями при генерации исполняемого кода, что в первую очередь связано с недостаточным объемом фоновых знаний и ограничениями методов генерации, усиленной поиском (RAG), которые не способны уловить скрытые технические детали, содержащиеся в упомянутых научных работах. Кроме того, предыдущие подходы склонны игнорировать ценные сигналы на уровне реализации кода и не обладают структурированными представлениями знаний, которые поддерживают многоуровневый поиск и повторное использование. Для преодоления этих проблем мы предлагаем Исполняемые графы знаний (xKG) — модульную и подключаемую базу знаний, которая автоматически интегрирует технические инсайты, фрагменты кода и предметно-ориентированные знания, извлеченные из научной литературы. При интеграции в три фреймворка агентов с использованием двух различных LLM, xKG демонстрирует значительное улучшение производительности (10,9% с o3-mini) на тестовом наборе PaperBench, подтверждая свою эффективность в качестве универсального и расширяемого решения для автоматизированного воспроизведения исследований в области ИИ. Код будет доступен по адресу https://github.com/zjunlp/xKG.

Глубокое саморазвивающееся рассуждение
Deep Self-Evolving Reasoning

Oct 20

ByZihan Liu, Shun Zheng, Xumeng Wen, Yang Wang, Jiang Bian, Mao Yang

Длинные цепочки рассуждений стали краеугольным камнем продвинутого мышления в крупных языковых моделях. Хотя недавние фреймворки верификации и уточнения позволили проприетарным моделям решать задачи уровня олимпиад, их эффективность зависит от сильных и надежных возможностей проверки и исправления, которые остаются хрупкими в открытых, менее масштабных моделях. В данной работе показано, что даже при слабых возможностях верификации и уточнения на сложных задачах, пределы рассуждений таких моделей могут быть существенно расширены с помощью вероятностной парадигмы, которую мы называем Глубоким Саморазвивающимся Рассуждением (DSER). Мы концептуализируем итеративное рассуждение как марковскую цепь, где каждый шаг представляет собой стохастический переход в пространстве решений. Ключевая идея заключается в том, что сходимость к правильному решению гарантирована, если вероятность улучшения хотя бы немного превышает вероятность ухудшения. Запуская несколько долгосрочных, саморазвивающихся процессов параллельно, DSER усиливает эти небольшие положительные тенденции, позволяя модели асимптотически приближаться к правильным ответам. Эмпирически мы применяем DSER к модели DeepSeek-R1-0528-Qwen3-8B. На сложном бенчмарке AIME 2024-2025 DSER решает 5 из 9 ранее нерешаемых задач и повышает общую производительность, позволяя этой компактной модели превзойти точность одношагового решения своей 600-миллиардной учительской модели с помощью голосования большинством. Помимо непосредственной пользы для масштабирования на этапе тестирования, фреймворк DSER служит для диагностики фундаментальных ограничений текущих открытых моделей рассуждений. Четко обозначая их недостатки в самопроверке, уточнении и стабильности, наши результаты устанавливают четкую исследовательскую программу для разработки моделей следующего поколения с мощными, внутренними возможностями саморазвития.

Chronos-2: От одномерного к универсальному прогнозированию
Chronos-2: From Univariate to Universal Forecasting

Oct 17

ByAbdul Fatir Ansari, Oleksandr Shchur, Jaris Küken, Andreas Auer, Boran Han, Pedro Mercado, Syama Sundar Rangapuram, Huibin Shen, Lorenzo Stella, Xiyuan Zhang, Mononito Goswami, Shubham Kapoor, Danielle C. Maddix, Pablo Guerron, Tony Hu, Junming Yin, Nick Erickson, Prateek Mutalik Desai, Hao Wang, Huzefa Rangwala, George Karypis, Yuyang Wang, Michael Bohlke-Schneider

Предобученные модели временных рядов сделали возможными системы прогнозирования, работающие исключительно на выводе и обеспечивающие точные предсказания без необходимости обучения для конкретной задачи. Однако существующие подходы в основном сосредоточены на одномерном прогнозировании, что ограничивает их применимость в реальных сценариях, где многомерные данные и ковариаты играют ключевую роль. Мы представляем Chronos-2, предобученную модель, способную выполнять задачи одномерного, многомерного и прогнозирования с учетом ковариат в режиме "zero-shot". Chronos-2 использует механизм группового внимания, который способствует обучению в контексте (in-context learning, ICL) за счет эффективного обмена информацией между несколькими временными рядами в группе, которая может представлять наборы связанных рядов, переменные многомерного ряда или целевые показатели и ковариаты в задаче прогнозирования. Эти общие возможности достигаются за счет обучения на синтетических наборах данных, которые накладывают разнообразные многомерные структуры на одномерные ряды. Chronos-2 демонстрирует наилучшую производительность в трех комплексных тестах: fev-bench, GIFT-Eval и Chronos Benchmark II. На fev-bench, который акцентирует внимание на многомерном прогнозировании и прогнозировании с учетом ковариат, универсальные возможности ICL Chronos-2 приводят к значительному улучшению по сравнению с существующими моделями. В задачах, связанных с ковариатами, она стабильно превосходит базовые модели с большим отрывом. Кейс-стади в энергетической и розничной областях дополнительно подчеркивают ее практические преимущества. Возможности обучения в контексте Chronos-2 делают ее универсальной моделью прогнозирования, которую можно использовать "как есть" в реальных конвейерах прогнозирования.

За пределами конвейеров: обзор смены парадигмы в сторону модельно-ориентированного агентного ИИ
Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI

Oct 19

ByJitao Sang, Jinlin Xiao, Jiarun Han, Jilin Chen, Xiaoyi Chen, Shuyu Wei, Yongjie Sun, Yuhang Wang

Быстрая эволюция агентного ИИ знаменует собой новый этап в области искусственного интеллекта, где крупные языковые модели (LLM) больше не просто реагируют, а действуют, рассуждают и адаптируются. В этом обзоре прослеживается смена парадигмы в создании агентного ИИ: от систем на основе конвейеров, где планирование, использование инструментов и память управляются внешней логикой, к новой парадигме Model-native, где эти возможности интегрированы в параметры модели. Сначала мы рассматриваем обучение с подкреплением (RL) как алгоритмический механизм, обеспечивающий этот сдвиг. Переосмысливая обучение от имитации статических данных к исследованию, ориентированному на результат, RL лежит в основе унифицированного подхода LLM + RL + Task, охватывающего языковые, визуальные и воплощенные области. На основе этого обзор систематически рассматривает, как каждая из возможностей — планирование, использование инструментов и память — эволюционировала от внешне скриптованных модулей к поведению, обученному end-to-end. Кроме того, исследуется, как этот сдвиг парадигмы изменил основные приложения агентов, в частности агента Deep Research, акцентирующего долгосрочное рассуждение, и GUI-агента, ориентированного на воплощенное взаимодействие. В заключение обсуждается дальнейшая интеграция агентных возможностей, таких как многокомпонентное сотрудничество и рефлексия, а также эволюция ролей системного и модельного уровней в будущем агентном ИИ. Вместе эти разработки очерчивают последовательную траекторию к Model-native агентному ИИ как интегрированной системе обучения и взаимодействия, знаменуя переход от создания систем, применяющих интеллект, к разработке моделей, которые развивают интеллект через опыт.

Embody 3D: Масштабный мультимодальный набор данных о движениях и поведении
Embody 3D: A Large-scale Multimodal Motion and Behavior Dataset

Oct 17

ByClaire McLean, Makenzie Meendering, Tristan Swartz, Orri Gabbay, Alexandra Olsen, Rachel Jacobs, Nicholas Rosen, Philippe de Bree, Tony Garcia, Gadsden Merrill, Jake Sandakly, Julia Buffalini, Neham Jain, Steven Krenn, Moneish Kumar, Dejan Markovic, Evonne Ng, Fabian Prada, Andrew Saba, Siwei Zhang, Vasu Agrawal, Tim Godisart, Alexander Richard, Michael Zollhoefer

Лаборатория Codec Avatars компании Meta представляет Embody 3D — мультимодальный набор данных, содержащий 500 индивидуальных часов 3D-данных о движении, собранных от 439 участников в многокамерной съемочной студии, что составляет более 54 миллионов кадров отслеженного 3D-движения. Набор данных включает широкий спектр движений одного человека, таких как заданные движения, жесты руками и перемещения, а также данные о поведении и взаимодействии нескольких людей, включая обсуждения, разговоры в различных эмоциональных состояниях, совместные действия и сценарии совместного проживания в пространстве, напоминающем квартиру. Мы предоставляем отслеженное движение человека, включая движение рук и форму тела, текстовые аннотации, а также отдельные аудиодорожки для каждого участника.

Постоянное совершенствование моделей обработки изображений требует постоянного улучшения тестовых наборов данных.
Constantly Improving Image Models Need Constantly Improving Benchmarks

Oct 16

ByJiaxin Ge, Grace Luo, Heekyung Lee, Nishant Malpani, Long Lian, XuDong Wang, Aleksander Holynski, Trevor Darrell, Sewon Min, David M. Chan

Последние достижения в области генерации изображений, часто обусловленные проприетарными системами, такими как GPT-4o Image Gen, регулярно вводят новые возможности, которые меняют способы взаимодействия пользователей с этими моделями. Существующие бенчмарки часто отстают и не учитывают эти новые сценарии использования, создавая разрыв между восприятием прогресса сообществом и формальной оценкой. Чтобы решить эту проблему, мы представляем ECHO — фреймворк для создания бенчмарков непосредственно на основе реальных примеров использования моделей: постов в социальных сетях, демонстрирующих новые запросы и качественные оценки пользователей. Применяя этот фреймворк к GPT-4o Image Gen, мы создали набор данных из более чем 31 000 запросов, отобранных из таких постов. Наш анализ показывает, что ECHO (1) выявляет творческие и сложные задачи, отсутствующие в существующих бенчмарках, такие как перерисовка этикеток продуктов на разных языках или генерация чеков с указанными суммами, (2) более четко отличает передовые модели от альтернатив и (3) выявляет отзывы сообщества, которые мы используем для разработки метрик качества моделей (например, измерение наблюдаемых изменений в цвете, идентичности и структуре). Наш сайт доступен по адресу https://echo-bench.github.io.

Агентное обучение с подкреплением для поиска небезопасно
Agentic Reinforcement Learning for Search is Unsafe

Oct 20

ByYushi Yang, Shreyansh Padarha, Andrew Lee, Adam Mahdi

Агентное обучение с подкреплением (RL) обучает крупные языковые модели автономно вызывать инструменты в процессе рассуждения, причем поиск является наиболее распространенным применением. Эти модели превосходно справляются с задачами многошагового рассуждения, однако их свойства безопасности изучены недостаточно. В данном исследовании мы показываем, что модели поиска, обученные с помощью RL, наследуют отказ от выполнения инструкций и часто отклоняют вредоносные запросы, преобразуя их в безопасные запросы. Однако эта безопасность является хрупкой. Две простые атаки — одна, которая заставляет модель начинать ответ с поиска (атака "Search attack"), и другая, которая побуждает модели многократно выполнять поиск (атака "Multi-search attack"), — вызывают каскады вредоносных поисков и ответов. В двух семействах моделей (Qwen, Llama) как с локальным, так и с веб-поиском эти атаки снижают уровень отказов до 60,0%, безопасность ответов — на 82,5%, а безопасность поисковых запросов — на 82,4%. Атаки успешны, поскольку заставляют модели генерировать вредоносные поисковые запросы, отражающие запросы, до того, как они смогут сгенерировать унаследованные токены отказа. Это выявляет ключевую слабость текущего обучения RL: оно вознаграждает продолжение генерации эффективных запросов без учета их вредоносности. В результате модели поиска RL имеют уязвимости, которые пользователи могут легко эксплуатировать, что делает срочным разработку безопасных агентных RL-конвейеров, оптимизированных для безопасного поиска.

UltraCUA: Базисная модель для агентов компьютерного взаимодействия с гибридным действием
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

Oct 20

ByYuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan

Мультимодальные агенты для работы с компьютером полагаются исключительно на примитивные действия (клик, ввод текста, прокрутка), которые требуют точного визуального заземления и длинных цепочек выполнения, что приводит к каскадным сбоям и узким местам в производительности. В то время как другие агенты используют богатые программные интерфейсы (API, серверы MCP, инструменты), агенты для работы с компьютером (CUAs) остаются изолированными от этих возможностей. Мы представляем UltraCUA, базовую модель, которая устраняет этот разрыв за счет гибридных действий — бесшовного интегрирования примитивов графического интерфейса с вызовами высокоуровневых программных инструментов. Для достижения этого наш подход включает четыре ключевых компонента: (1) автоматизированный конвейер, который масштабирует программные инструменты на основе документации, открытых репозиториев и генерации кода; (2) синтетический механизм данных, создающий более 17 000 проверяемых задач, охватывающих реальные сценарии работы с компьютером; (3) крупномасштабный сбор высококачественных траекторий гибридных действий, включающих как низкоуровневые действия графического интерфейса, так и высокоуровневые вызовы программных инструментов; и (4) двухэтапный конвейер обучения, сочетающий тонкую настройку с обучением с подкреплением в реальном времени, что позволяет стратегически чередовать низкоуровневые и высокоуровневые действия. Эксперименты с нашими моделями на 7B и 32B параметров демонстрируют значительные улучшения по сравнению с современными агентами. На платформе OSWorld модели UltraCUA достигают среднего относительного улучшения на 22% по сравнению с базовыми моделями, при этом выполняя шаги на 11% быстрее. Оценка вне домена на WindowsAgentArena показывает, что наша модель достигает уровня успешности 21,7%, превосходя базовые модели, обученные на данных Windows. Гибридный механизм действий оказывается критически важным, снижая распространение ошибок при сохранении эффективности выполнения.

Глубокое исследование для предприятий: Управляемое многозадачное глубокое исследование для аналитики предприятий
Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics

Oct 20

ByAkshara Prabhakar, Roshan Ram, Zixiang Chen, Silvio Savarese, Frank Wang, Caiming Xiong, Huan Wang, Weiran Yao

С экспоненциальным ростом объема информации предприятия сталкиваются с растущим давлением необходимости преобразования неструктурированных данных в последовательные, пригодные для использования выводы. Хотя автономные агенты демонстрируют потенциал, они часто сталкиваются с трудностями в понимании специфических нюансов предметной области, согласовании намерений и интеграции в корпоративные системы. Мы представляем Enterprise Deep Research (EDR), многоагентную систему, которая объединяет (1) Главный планирующий агент для адаптивного декомпозирования запросов, (2) четыре специализированных поисковых агента (Общий, Академический, GitHub, LinkedIn), (3) расширяемую экосистему инструментов на основе MCP, поддерживающую NL2SQL, анализ файлов и корпоративные рабочие процессы, (4) Агент визуализации для получения выводов на основе данных и (5) механизм рефлексии, который выявляет пробелы в знаниях и обновляет направление исследований с возможностью участия человека в процессе управления. Эти компоненты позволяют автоматизировать генерацию отчетов, потоковую передачу данных в реальном времени и бесшовное внедрение в корпоративные системы, что подтверждено на внутренних наборах данных. На открытых тестах, включая DeepResearch Bench и DeepConsult, EDR превосходит современные агентные системы без какого-либо участия человека. Мы публикуем фреймворк EDR и траектории тестирования для продвижения исследований в области приложений многоагентного рассуждения. Код доступен по адресу: https://github.com/SalesforceAIResearch/enterprise-deep-research Набор данных: https://huggingface.co/datasets/Salesforce/EDR-200

Визуальное ответы на вопросы на основе знаний с использованием мультимодальной обработки, поиска и фильтрации
Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering

Oct 16

ByYuyang Hong, Jiaqi Gu, Qi Yang, Lubin Fan, Yue Wu, Ying Wang, Kun Ding, Shiming Xiang, Jieping Ye

Визуальное ответы на вопросы на основе знаний (KB-VQA) требуют от визуально-языковых моделей (VLMs) интеграции визуального понимания с извлечением внешних знаний. Хотя подход, основанный на генерации с использованием извлечения (RAG), достигает значительных успехов в этой задаче за счет комбинирования запросов к базам знаний, он всё ещё сталкивается с проблемами качества мультимодальных запросов и релевантности извлечённых результатов. Для преодоления этих трудностей мы предлагаем новый трёхэтапный метод, названный Wiki-PRF, включающий этапы обработки, извлечения и фильтрации. На этапе обработки динамически вызываются визуальные инструменты для извлечения точной мультимодальной информации для последующего извлечения. На этапе извлечения интегрируются визуальные и текстовые признаки для достижения мультимодального извлечения знаний. На этапе фильтрации выполняется релевантная фильтрация и концентрация на результатах извлечения. Для этого мы представляем визуально-языковую модель, обученную с использованием точности ответов и согласованности формата в качестве сигналов вознаграждения через подход обучения с подкреплением. Это улучшает способность модели к рассуждению, вызову инструментов для точных запросов и фильтрации нерелевантного содержимого. Эксперименты на эталонных наборах данных (E-VQA и InfoSeek) показывают значительные улучшения (36.0 и 42.8) в качестве ответов, достигая наилучших результатов. Код доступен по адресу https://github.com/cqu-student/Wiki-PRF.

Что ограничивает эффективность агентных систем?
What Limits Agentic Systems Efficiency?

Oct 18

BySong Bian, Minghao Yan, Anand Jayarajan, Gennady Pekhimenko, Shivaram Venkataraman

Крупные языковые модели (LLM), такие как OpenAI-o1 и DeepSeek-R1, продемонстрировали высокие способности к рассуждению. Для дальнейшего улучшения возможностей LLM современные агентские системы, такие как Deep Research, интегрируют взаимодействие с веб-ресурсами в процесс рассуждения LLM, чтобы снизить неопределенности и уменьшить потенциальные ошибки. Однако существующие исследования в основном сосредоточены на производительности рассуждений, часто упуская из виду эффективность агентских систем. В данной работе мы представляем всестороннее эмпирическое исследование, которое выявляет узкие места в эффективности веб-интерактивных агентских систем. Мы разбиваем общую задержку на два основных компонента: задержку API LLM и задержку веб-среды. Мы проводим всестороннее эмпирическое исследование на 15 моделях и 5 провайдерах, чтобы продемонстрировать высокую вариативность в агентских системах, основанных на API. Мы наблюдаем, что задержка веб-среды может составлять до 53,7% от общей задержки в веб-агентской системе. Для улучшения задержки мы предлагаем SpecCache — кэширующую структуру, дополненную спекулятивным выполнением, которая может снизить накладные расходы веб-среды. Обширные оценки на двух стандартных тестовых наборах показывают, что наш подход увеличивает коэффициент попадания в кэш до 58 раз по сравнению со стратегией случайного кэширования, одновременно снижая накладные расходы веб-среды до 3,2 раз, без ухудшения производительности агентской системы.

MultiVerse: Бенчмарк для оценки многоходовых диалогов в крупных моделях, работающих с визуальными и текстовыми данными
MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models

Oct 18

ByYoung-Jun Lee, Byung-Kwan Lee, Jianshu Zhang, Yechan Hwang, Byungsoo Ko, Han-Gyu Kim, Dongyu Yao, Xuankun Rong, Eojin Joo, Seung-Ho Han, Bowon Ko, Ho-Jin Choi

Модели, объединяющие зрение и язык (Vision-and-Language Models, VLMs), демонстрируют впечатляющие результаты на бенчмарках с одношаговыми задачами, однако реальные приложения часто требуют более сложных многошаговых диалогов. Существующие наборы данных для многошаговых диалогов (например, MMDU, ConvBench) лишь частично охватывают широту и глубину сценариев общения, с которыми сталкиваются пользователи. В данной работе мы представляем MultiVerse — новый бенчмарк для многошаговых диалогов, включающий 647 диалогов, каждый из которых в среднем состоит из четырех шагов, созданных на основе 12 популярных бенчмарков для оценки VLMs. С 484 задачами и 484 целями взаимодействия MultiVerse охватывает широкий спектр тем, от фактических знаний и восприятия до сложных задач на логическое мышление, таких как математика и программирование. Для обеспечения надежной оценки мы предлагаем метод оценки на основе контрольного списка, использующий GPT-4o в качестве автоматического оценщика, измеряющего производительность по 37 ключевым аспектам, включая точность восприятия, ясность языка и достоверность фактов. Мы оцениваем 18 VLMs на MultiVerse и обнаруживаем, что даже самые мощные модели (например, GPT-4o) достигают лишь 50% успеха в сложных многошаговых диалогах, что подчеркивает сложность набора данных. Примечательно, что предоставление полного контекста диалога значительно улучшает производительность для более слабых или компактных моделей, что подчеркивает важность обучения в контексте. Мы считаем, что MultiVerse представляет собой важный инструмент для оценки способностей VLMs к многошаговому взаимодействию.

Атаки с внедрением отвлекающих факторов на крупные модели рассуждений: характеристика и защита
Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense

Oct 17

ByZhehao Zhang, Weijie Xu, Shixian Cui, Chandan K. Reddy

Последние достижения в области крупных моделей рассуждений (LRMs) позволили добиться впечатляющих результатов в решении сложных задач, таких как математика и программирование, за счет генерации длинных цепочек рассуждений (Chain-of-Thought, CoT). В данной работе мы выявляем и систематически анализируем критическую уязвимость, которую называем "отвлечением рассуждений", когда LRMs отклоняются от основной цели из-за нерелевантных, но сложных задач, злонамеренно встроенных в запрос. В ходе всестороннего исследования на различных моделях и тестовых наборах мы показываем, что даже самые передовые LRMs крайне подвержены этой уязвимости, причем внедренные отвлекающие факторы снижают точность выполнения задач до 60%. Мы также обнаруживаем, что определенные методы согласования могут усиливать эту слабость, а модели могут демонстрировать скрытое подчинение, следуя замаскированным враждебным инструкциям в процессе рассуждений, но скрывая их в конечном выводе. Для снижения этих рисков мы предлагаем метод защиты на основе обучения, который сочетает контролируемую тонкую настройку (Supervised Fine-Tuning, SFT) и обучение с подкреплением (Reinforcement Learning, RL) на синтетических данных с атаками, повышая устойчивость более чем на 50 пунктов при сложных атаках с отвлечением. Наши результаты устанавливают "отвлечение рассуждений" как отдельную и актуальную угрозу надежности LRMs и предлагают практический шаг к созданию более безопасных и надежных систем рассуждений.

Фундаментальные автоматические системы оценки: масштабирование обучения многозадачных генеративных оценщиков для областей, ориентированных на рассуждения
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains

Oct 20

ByAustin Xu, Xuan-Phi Nguyen, Yilun Zhou, Chien-Sheng Wu, Caiming Xiong, Shafiq Joty

Тонкая настройка специализированных генеративных оценщиков стала популярной парадигмой для удовлетворения растущего спроса на масштабируемую оценку как во время обучения, так и на этапе тестирования. Однако в последних работах основное внимание уделялось применению новых методологий, таких как обучение с подкреплением (RL), для тренировки оценщиков, избегая крупномасштабной разработки, основанной на данных. В данной работе мы сосредоточились на масштабировании данных, собрав набор из 2,5 миллионов образцов, охватывающих пять уникальных задач оценки (попарное сравнение, пошаговая оценка, проверка без эталона и с эталоном, а также единичная оценка) и несколько областей, связанных с оценкой рассуждений. Используя наши данные, мы обучили семейство Foundational Automatic Reasoning Evaluators (FARE) — оценщиков с 8 миллиардами и 20 миллиардами параметров (с активными 3,6 миллиардами), применяя простой итеративный подход тонкой настройки с использованием метода отбора с отклонением (SFT). FARE-8B конкурирует с более крупными специализированными оценщиками, обученными с помощью RL, а FARE-20B устанавливает новый стандарт для открытых оценщиков, превосходя специализированные модели с 70+ миллиардами параметров. Помимо статических бенчмарков, мы оценили FARE в реальных задачах: в качестве ранкеров на этапе вывода FARE-20B достигает почти оптимальной производительности на наборе данных MATH. В качестве верификаторов в обучении с подкреплением FARE улучшает производительность модели, обученной с помощью RL, на 14,1% по сравнению с верификаторами, основанными на сопоставлении строк. При инициализации на основе FARE, постоянно донастраиваемый FARE-Code превосходит gpt-oss-20B на 65% в оценке качества тестовых случаев.

О неинтерактивной оценке переводчиков для коммуникации животных
On Non-interactive Evaluation of Animal Communication Translators

Oct 17

ByOrr Paradise, David F. Gruber, Adam Tauman Kalai

Если бы у вас был ИИ-переводчик с языка китов на английский, как бы вы могли проверить, работает ли он? Нужно ли взаимодействовать с животными или полагаться на объективные наблюдения, такие как температура? Мы предоставляем теоретические и экспериментальные доказательства концепции, которые предполагают, что взаимодействие и даже наблюдения могут быть не обязательными для достаточно сложных языков. Возможно, можно оценивать переводчиков исключительно по их английским выводам, что предлагает потенциальные преимущества с точки зрения безопасности, этики и затрат. Это пример оценки качества машинного перевода (MTQE) без доступных эталонных переводов. Ключевой задачей является выявление «галлюцинаций» — ложных переводов, которые могут казаться беглыми и правдоподобными. Мы предлагаем использовать поэтапный перевод вместе с классическим NLP shuffle тестом для оценки переводчиков. Идея заключается в том, чтобы переводить коммуникацию животных шаг за шагом и оценивать, насколько чаще полученные переводы имеют смысл в правильном порядке, чем в переставленном. Эксперименты по проверке концепции на малодоступных человеческих языках и искусственных языках демонстрируют потенциальную полезность этой методики оценки. Эти эксперименты с человеческими языками служат исключительно для проверки нашей метрики без эталонов в условиях недостатка данных. Было обнаружено, что она сильно коррелирует со стандартной оценкой, основанной на эталонных переводах, которые доступны в наших экспериментах. Мы также проводим теоретический анализ, который предполагает, что взаимодействие может быть не необходимым и не эффективным на ранних этапах обучения переводу.

Сбалансированное многозадачное внимание для классификации спутниковых изображений: систематический подход к достижению точности 97,23% на EuroSAT без предварительного обучения
Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training

Oct 17

ByAditya Vir

В данной работе представлено систематическое исследование специализированных архитектур сверточных нейронных сетей для классификации землепользования по спутниковым снимкам, достигающее точности 97,23% на тестовом наборе данных EuroSAT без использования предварительно обученных моделей. В ходе трех последовательных итераций архитектуры (базовая: 94,30%, с улучшением CBAM: 95,98% и сбалансированная многозадачная модель внимания: 97,23%) мы выявили и устранили характерные ошибки в классификации спутниковых изображений. Основной вклад работы заключается в предложении нового механизма сбалансированного многозадачного внимания, который объединяет Coordinate Attention для извлечения пространственных признаков и блоки Squeeze-Excitation для извлечения спектральных признаков, связанных через обучаемый параметр слияния. Экспериментальные результаты показывают, что этот обучаемый параметр автономно сходится к значению альфа ≈ 0,57, что указывает на почти равную важность пространственных и спектральных модальностей для спутниковых изображений. Мы применяем прогрессивную регуляризацию DropBlock (5-20% в зависимости от глубины сети) и взвешивание потерь с учетом баланса классов для борьбы с переобучением и дисбалансом в паттернах ошибок. Финальная 12-слойная архитектура достигает коэффициента Каппа Коэна 0,9692, при этом точность для всех классов превышает 94,46%, демонстрируя калибровку уверенности с разрывом в 24,25% между правильными и ошибочными предсказаниями. Наш подход показывает результат, отличающийся всего на 1,34% от точности дообученной модели ResNet-50 (98,57%), при этом не требуя внешних данных, что подтверждает эффективность систематического проектирования архитектур для задач в конкретных предметных областях. Полный код, обученные модели и скрипты для оценки доступны в открытом доступе.

Автоматизированная композиция агентов: подход на основе задачи о рюкзаке для выбора агентных компонентов
Automated Composition of Agents: A Knapsack Approach for Agentic Component Selection

Oct 18

ByMichelle Yuan, Khushbu Pahwa, Shuaichen Chang, Mustafa Kaba, Jiarong Jiang, Xiaofei Ma, Yi Zhang, Monica Sunkara

Создание эффективных агентных систем требует бесшовной композиции и интеграции агентов, инструментов и моделей в динамических и неопределенных средах. Большинство существующих методов полагаются на статические семантические подходы для поиска инструментов или агентов. Однако эффективное повторное использование и композиция существующих компонентов остаются сложными задачами из-за неполных описаний возможностей и ограничений методов поиска. Выбор компонентов страдает, поскольку решения не основываются на возможностях, стоимости и полезности в реальном времени. Для решения этих проблем мы представляем структурированный автоматизированный фреймворк для композиции агентных систем, вдохновленный задачей о рюкзаке. Наш фреймворк позволяет агенту-композитору систематически идентифицировать, выбирать и собирать оптимальный набор агентных компонентов, учитывая производительность, бюджетные ограничения и совместимость. Динамически тестируя кандидатов и моделируя их полезность в реальном времени, наш подход упрощает сборку агентных систем и способствует масштабируемому повторному использованию ресурсов. Эмпирическая оценка с использованием Claude 3.5 Sonnet на пяти наборах данных показывает, что наш композитор на основе онлайн-задачи о рюкзаке стабильно находится на границе Парето, достигая более высоких показателей успешности при значительно меньших затратах на компоненты по сравнению с базовыми методами. В однозадачной конфигурации композитор на основе онлайн-задачи о рюкзаке демонстрирует улучшение показателя успешности до 31,6% по сравнению с базовыми методами поиска. В мультиагентных системах композитор увеличивает показатель успешности с 37% до 87% при выборе агентов из инвентаря, содержащего более 100 агентов. Значительный разрыв в производительности подтверждает устойчивую адаптивность нашего метода в различных областях и при различных бюджетных ограничениях.

GuideFlow3D: Оптимизационно-направленный Rectified Flow для переноса внешнего вида
GuideFlow3D: Optimization-Guided Rectified Flow For Appearance Transfer

Oct 17

BySayan Deb Sarkar, Sinisa Stekovic, Vincent Lepetit, Iro Armeni

Перенос внешнего вида на 3D-объекты с использованием различных представлений объекта внешнего вида — таких как изображения или текст — вызывает интерес благодаря широкому спектру применений в таких отраслях, как игровая индустрия, дополненная реальность и создание цифрового контента. Однако современные методы всё ещё не справляются, когда геометрия между входным объектом и объектом внешнего вида значительно различается. Прямой подход заключается в непосредственном применении 3D-генеративной модели, но мы показываем, что это в конечном итоге не позволяет получить привлекательные результаты. Вместо этого мы предлагаем принципиальный подход, вдохновлённый универсальным управлением. Учитывая предварительно обученную модель исправленного потока, обусловленную изображением или текстом, наш метод, не требующий обучения, взаимодействует с процессом выборки, периодически добавляя управление. Это управление может быть смоделировано как дифференцируемая функция потерь, и мы экспериментируем с двумя различными типами управления, включая потери, учитывающие части для внешнего вида, и самоподобие. Наши эксперименты показывают, что наш подход успешно переносит текстуру и геометрические детали на входной 3D-объект, превосходя базовые методы как качественно, так и количественно. Мы также показываем, что традиционные метрики не подходят для оценки задачи из-за их неспособности фокусироваться на локальных деталях и сравнивать несходные входные данные при отсутствии эталонных данных. Поэтому мы оцениваем качество переноса внешнего вида с помощью системы на основе GPT, объективно ранжирующей выходные данные, что обеспечивает надёжную и человеко-подобную оценку, что дополнительно подтверждается нашим пользовательским исследованием. Помимо представленных сценариев, наш метод является общим и может быть расширен на различные типы диффузионных моделей и функций управления.

AsyncVoice Agent: Реальное время объяснений для планирования и рассуждений в крупных языковых моделях
AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

Oct 17

ByYueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen

Эффективное взаимодействие человека и ИИ в сложных задачах, требующих рассуждений, требует, чтобы пользователи понимали и взаимодействовали с процессом модели, а не просто получали результат. Однако монолитный текст, генерируемый методами вроде Chain-of-Thought (CoT), препятствует этому, поскольку современные интерфейсы не поддерживают реальное время озвучивания и надежное прерывание пользователем. Мы представляем AsyncVoice Agent — систему, чья асинхронная архитектура разделяет потоковый бэкенд на основе языковой модели и голосовой фронтенд для общения. Такая конструкция позволяет озвучиванию и логическому выводу выполняться параллельно, давая пользователям возможность прерывать, запрашивать и направлять процесс рассуждений модели в любой момент. Объективные тесты показывают, что этот подход снижает задержку взаимодействия более чем в 600 раз по сравнению с монолитными базовыми решениями, сохраняя высокую точность и конкурентоспособность в выполнении задач. Благодаря возможности двустороннего диалога с процессом мышления модели, AsyncVoice Agent предлагает новую парадигму для создания более эффективных, управляемых и надежных систем взаимодействия человека и ИИ для задач с высокими ставками.

Beacon: Однократная диагностика и устранение скрытой угодливости в крупных языковых моделях
Beacon: Single-Turn Diagnosis and Mitigation of Latent Sycophancy in Large Language Models

Oct 19

BySanskar Pandey, Ruhaan Chopra, Angkul Puniya, Sohom Pal

Крупные языковые модели интериоризируют структурный компромисс между правдивостью и подобострастной лестью, возникающий из оптимизации вознаграждения, которая смешивает полезность с вежливым подчинением. Этот скрытый уклон, известный как сикофантия, проявляется в предпочтении согласия с пользователем перед принципиальным рассуждением. Мы представляем Beacon — одношаговый бенчмарк с принудительным выбором, который изолирует этот уклон независимо от контекста разговора, позволяя точно измерить напряжение между фактической точностью и склонностью к подчинению. Оценки двенадцати современных моделей показывают, что сикофантия распадается на устойчивые лингвистические и аффективные субуклоны, каждый из которых масштабируется с увеличением мощности модели. Мы также предлагаем вмешательства на уровне промптов и активаций, которые модулируют эти уклоны в противоположных направлениях, раскрывая внутреннюю геометрию согласованности как динамическое многообразие между правдивостью и социально приемлемым суждением. Beacon переосмысливает сикофантию как измеримую форму нормативной неправильной генерализации, предоставляя воспроизводимую основу для изучения и смягчения отклонений в согласованности крупномасштабных генеративных систем.

Масштабирование моделей рассуждений для машинного перевода на этапе тестирования
Test-Time Scaling of Reasoning Models for Machine Translation

Oct 7

ByZihao Li, Shaoxiong Ji, Jörg Tiedemann

Масштабирование на этапе тестирования (Test-time scaling, TTS) улучшило производительность моделей рассуждения (Reasoning Models, RMs) в различных задачах, таких как математика и программирование, однако его эффективность в машинном переводе (MT) остается недостаточно изученной. В данной статье исследуется, повышает ли увеличение вычислительных ресурсов на этапе вывода качество перевода. Мы оцениваем 12 моделей RMs на разнообразных наборах данных для MT, охватывающих несколько доменов, рассматривая три сценария: прямой перевод, экстраполяция с принудительным рассуждением и пост-редактирование. Наши результаты показывают, что для универсальных моделей RMs TTS обеспечивает ограниченные и нестабильные преимущества для прямого перевода, при этом производительность быстро достигает плато. Однако эффективность TTS раскрывается при доменно-специфической тонкой настройке, которая согласует процесс рассуждения модели с требованиями задачи, приводя к стабильным улучшениям вплоть до оптимальной, самостоятельно определяемой глубины рассуждения. Мы также обнаруживаем, что принуждение модели к рассуждению за пределы её естественной точки остановки последовательно ухудшает качество перевода. В отличие от этого, TTS оказывается высокоэффективным в контексте пост-редактирования, надежно превращая самокоррекцию в полезный процесс. Эти результаты указывают на то, что ценность вычислительных ресурсов на этапе вывода в MT заключается не в улучшении одношагового перевода с использованием универсальных моделей, а в целевых приложениях, таких как многошаговые процессы самокоррекции, а также в сочетании с моделями, специализированными для конкретных задач.

MoReBench: Оценка процедурного и плюралистического морального мышления в языковых моделях, выходящая за рамки результатов
MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes

Oct 18

ByYu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine

По мере развития систем ИИ мы все больше полагаемся на них в принятии решений вместе с нами и за нас. Чтобы такие решения соответствовали человеческим ценностям, крайне важно понимать не только то, какие решения они принимают, но и как они приходят к этим решениям. Рассуждающие языковые модели, которые предоставляют как конечные ответы, так и (частично прозрачные) промежуточные следы мышления, представляют своевременную возможность для изучения процедурного рассуждения ИИ. В отличие от математических и программных задач, которые часто имеют объективно правильные ответы, моральные дилеммы являются отличной площадкой для оценки, ориентированной на процесс, поскольку они допускают множество обоснованных выводов. Для этого мы представляем MoReBench: 1000 моральных сценариев, каждый из которых сопровождается набором критериев, которые эксперты считают важными для включения (или избегания) при рассуждении о сценариях. MoReBench содержит более 23 тысяч критериев, включая выявление моральных соображений, взвешивание компромиссов и предоставление практических рекомендаций, охватывающих случаи, когда ИИ советует людям в моральных решениях, а также принимает моральные решения автономно. Отдельно мы создаем MoReBench-Theory: 150 примеров для проверки способности ИИ рассуждать в рамках пяти основных направлений нормативной этики. Наши результаты показывают, что законы масштабирования и существующие тесты на математические, программные и научные рассуждения не позволяют предсказать способности моделей к моральному рассуждению. Модели также демонстрируют предпочтение определенным моральным подходам (например, бентамовскому актуализму и кантовской деонтологии), что может быть побочным эффектом популярных парадигм обучения. Вместе эти тесты продвигают оценку рассуждений, ориентированную на процесс, в сторону более безопасного и прозрачного ИИ.