Ежедневно отобранные исследовательские статьи по ИИ с переводами
Text-to-SQL ставит своей целью преобразование запросов на естественном языке в SQL-выражения, что является практичным, так как позволяет любому пользователю легко извлекать нужную информацию из баз данных. В последнее время многие существующие подходы решают эту задачу с использованием больших языковых моделей (LLM), используя их мощные возможности в понимании пользовательских запросов и генерации соответствующего SQL-кода. Однако параметрические знания в LLM могут быть ограничены в охвате всех разнообразных и специфичных для доменов запросов, которые требуют привязки к различным схемам баз данных, что зачастую делает сгенерированные SQL-запросы менее точными. Для решения этой проблемы мы предлагаем создать базу знаний для text-to-SQL, фундаментальный источник информации, из которого мы извлекаем и генерируем необходимые знания для заданных запросов. В частности, в отличие от существующих подходов, которые либо вручную аннотируют знания, либо генерируют лишь несколько фрагментов знаний для каждого запроса, наша база знаний является всеобъемлющей. Она строится на основе комбинации всех доступных вопросов, связанных с ними схем баз данных и соответствующей информации, и может быть повторно использована для неизвестных баз данных из различных наборов данных и доменов. Мы проверяем наш подход на нескольких наборах данных для text-to-SQL, учитывая как сценарии с перекрывающимися, так и неперекрывающимися базами данных, где он значительно превосходит соответствующие базовые методы.
Следование инструкциям (Instruction Following, IF) является ключевой способностью для крупных языковых моделей (Large Language Models, LLMs). Однако обработка сложных инструкций с множеством ограничений остается сложной задачей. Предыдущие методы обычно выбирают пары предпочтений на основе количества ограничений, которые они удовлетворяют, что вносит шум, поскольку выбранные примеры могут не соответствовать некоторым ограничениям, а отвергнутые примеры могут превосходить выбранные в определенных аспектах. Для решения задачи согласования с множественными предпочтениями мы предлагаем простой, но эффективный метод, называемый Оптимизацией с Обратным Предпочтением (Reverse Preference Optimization, RPO). Он снижает шум в парах предпочтений за счет динамического обращения ограничений в инструкции, чтобы гарантировать, что выбранный ответ является идеальным, уменьшая необходимость в обширной выборке и фильтрации для сбора идеальных ответов. Кроме того, обращение также увеличивает разрыв между выбранными и отвергнутыми ответами, тем самым уточняя направление оптимизации и делая его более устойчивым к шуму. Мы оцениваем RPO на двух многозадачных бенчмарках IF, Sysbench и Multi-IF, демонстрируя средние улучшения по сравнению с базовым методом DPO на 4,6 и 2,5 пункта (на модели Llama-3.1 8B), соответственно. Более того, RPO эффективно масштабируется для моделей разных размеров (от 8B до 70B параметров), причем модель RPO с 70B параметрами превосходит GPT-4o.
Данная работа направлена на преодоление ключевого препятствия в масштабировании обучения с подкреплением (RL) для задач рассуждений с использованием больших языковых моделей (LLM), а именно коллапса энтропии политики. Это явление последовательно наблюдается в ходе обширных экспериментов с RL без вмешательства в энтропию, где энтропия политики резко снижается на ранних этапах обучения, что сопровождается насыщением производительности политики. На практике мы устанавливаем преобразовательное уравнение R=-a*e^H+b между энтропией H и итоговой производительностью R. Этот эмпирический закон явно указывает на то, что производительность политики достигается за счет энтропии, что ограничивается её истощением, а верхний предел полностью предсказуем: H=0, R=-a+b. Наше открытие подчеркивает необходимость управления энтропией для обеспечения непрерывного исследования в контексте масштабирования вычислительных ресурсов для RL. С этой целью мы исследуем динамику энтропии как теоретически, так и эмпирически. Наш вывод подчеркивает, что изменение энтропии политики обусловлено ковариацией между вероятностью действия и изменением логарифмических значений, что пропорционально её преимуществу при использовании алгоритмов, подобных Policy Gradient. Эмпирическое исследование показывает, что значения ковариационного члена и разницы энтропий точно совпадают, что подтверждает теоретический вывод. Более того, ковариационный член остается преимущественно положительным на протяжении всего обучения, что дополнительно объясняет, почему энтропия политики снижается монотонно. Понимая механизм, лежащий в основе динамики энтропии, мы предлагаем управлять энтропией, ограничивая обновление токенов с высокой ковариацией. В частности, мы предлагаем два простых, но эффективных метода: Clip-Cov и KL-Cov, которые соответственно ограничивают и применяют штраф KL к токенам с высокой ковариацией. Эксперименты показывают, что эти методы стимулируют исследование, помогая политике избежать коллапса энтропии и достичь лучшей итоговой производительности.
Агенты на основе больших языковых моделей (LLM) продемонстрировали многообещающие возможности в растущем спектре задач в области разработки программного обеспечения (SWE). Однако развитие этой области сталкивается с двумя ключевыми проблемами. Во-первых, высококачественные обучающие данные ограничены, особенно данные, отражающие реальные сценарии SWE, где агенты должны взаимодействовать с средами разработки, выполнять код и адаптировать свое поведение на основе результатов своих действий. Существующие наборы данных либо ограничены одношаговой генерацией кода, либо представляют собой небольшие, вручную отобранные коллекции интерактивных задач, что не обеспечивает ни масштаба, ни разнообразия. Во-вторых, отсутствие свежих интерактивных задач SWE затрудняет оценку быстро улучшающихся моделей, поскольку статические бенчмарки быстро устаревают из-за проблем с контаминацией. Для решения этих ограничений мы представляем новый автоматизированный и масштабируемый конвейер для непрерывного извлечения реальных интерактивных задач SWE из различных репозиториев GitHub. Используя этот конвейер, мы создаем SWE-rebench — публичный набор данных, содержащий более 21 000 интерактивных задач SWE на основе Python, подходящих для обучения с подкреплением агентов SWE в масштабе. Кроме того, мы используем постоянный поток свежих задач, собранных с использованием методологии SWE-rebench, для создания бенчмарка, свободного от контаминации, для агентной разработки программного обеспечения. Мы сравниваем результаты различных LLM на этом бенчмарке с результатами на SWE-bench Verified и показываем, что производительность некоторых языковых моделей может быть завышена из-за проблем с контаминацией.
Крупные языковые модели (LLM) демонстрируют впечатляющие способности к рассуждению, однако это достигается за счет значительных вычислительных затрат, что создает серьезные проблемы при их развертывании. Хотя дистиллированные малые языковые модели (SLM) значительно повышают эффективность, их производительность страдает, так как они не могут следовать цепочкам рассуждений LLM. К счастью, мы обнаружили, что лишь небольшая часть токенов действительно приводит к расхождению в рассуждениях между LLM и SLM. Большинство генерируемых токенов либо идентичны, либо демонстрируют нейтральные различия, такие как незначительные вариации в сокращениях или выражениях. Используя это наблюдение, мы представляем **Roads to Rome (R2R)**, метод нейронной маршрутизации токенов, который избирательно задействует LLM только для критических, расходящихся токенов, оставляя генерацию большинства токенов на SLM. Мы также разработали автоматизированный конвейер генерации данных, который идентифицирует расходящиеся токены и создает метки маршрутизации на уровне токенов для обучения легковесного маршрутизатора. Мы применяем R2R для объединения моделей R1-1.5B и R1-32B из семейства DeepSeek и оцениваем их на сложных задачах по математике, программированию и вопросам-ответам. При среднем размере активированных параметров в 5.6B, R2R превосходит среднюю точность модели R1-7B в 1.6 раза, опережая даже модель R1-14B. По сравнению с R1-32B, она обеспечивает ускорение в 2.8 раза при сопоставимой производительности, продвигая Парето-границу эффективности масштабирования во время тестирования. Наш код доступен по адресу https://github.com/thu-nics/R2R.
Успех DeepSeek-R1 подчеркивает значительную роль обучения с подкреплением (RL) в улучшении способностей к рассуждению у крупных языковых моделей (LLM). В данной работе мы представляем Skywork-OR1 — эффективную и масштабируемую реализацию RL для моделей с длинными цепочками рассуждений (CoT). Основываясь на серии моделей DeepSeek-R1-Distill, наш подход RL демонстрирует значительное улучшение производительности, увеличивая среднюю точность на наборах данных AIME24, AIME25 и LiveCodeBench с 57,8% до 72,8% (+15,0%) для 32B-модели и с 43,6% до 57,5% (+13,9%) для 7B-модели. Наша модель Skywork-OR1-32B превосходит как DeepSeek-R1, так и Qwen3-32B на бенчмарках AIME24 и AIME25, показывая сопоставимые результаты на LiveCodeBench. Модели Skywork-OR1-7B и Skywork-OR1-Math-7B демонстрируют конкурентоспособные способности к рассуждению среди моделей схожего размера. Мы проводим всесторонние исследования ключевых компонентов нашего конвейера обучения, чтобы подтвердить их эффективность. Кроме того, мы тщательно исследуем феномен коллапса энтропии, выявляем ключевые факторы, влияющие на динамику энтропии, и показываем, что предотвращение преждевременного коллапса энтропии критически важно для улучшения тестовой производительности. Для поддержки исследований сообщества мы полностью открываем исходные коды наших моделей, обучающего кода и наборов данных.
Модели рассуждений, работающие с визуальными и языковыми данными (VLMs), демонстрируют впечатляющие результаты в решении сложных мультимодальных задач. Однако они по-прежнему сталкиваются с серьёзными проблемами: они крайне чувствительны к ошибкам в рассуждениях, требуют больших объёмов размеченных данных или точных верификаторов и с трудом обобщают знания за пределами конкретных областей. Чтобы устранить эти ограничения, мы исследуем стратегию самокоррекции для улучшения VLMs. Сначала мы проводим глубокий анализ способностей VLMs к самокоррекции и выявляем ключевые пробелы. На основе полученных данных мы представляем Sherlock — фреймворк для обучения самокоррекции и самосовершенствования. Sherlock включает в себя цель самокоррекции на уровне траекторий, метод построения данных предпочтений на основе визуальных возмущений и динамический параметр beta для настройки предпочтений. После того как модель приобретает способность к самокоррекции, используя всего 20 тыс. случайно выбранных размеченных данных, она продолжает самосовершенствоваться без внешнего контроля. Построенная на основе модели Llama3.2-Vision-11B, Sherlock демонстрирует выдающиеся результаты на восьми бенчмарках, достигая средней точности 64,1 при прямом генерировании и 65,4 после самокоррекции. Она превосходит LLaVA-CoT (63,2), Mulberry (63,9) и LlamaV-o1 (63,4), используя менее 20% размеченных данных.
Улучшение мультимодальных больших языковых моделей (MLLMs) на этапе пост-обучения обычно основывается на контролируемом тонком настройке (SFT) или обучении с подкреплением (RL). Однако эти контролируемые методы требуют дорогостоящих и вручную аннотированных мультимодальных данных — ресурса, который в конечном итоге является неустойчивым. Хотя недавние исследования изучали неконтролируемое пост-обучение, их методы сложны и трудны для итераций. В данной работе мы впервые исследуем использование GRPO, стабильного и масштабируемого алгоритма онлайн RL, для обеспечения постоянного самоулучшения без какого-либо внешнего контроля. Мы предлагаем MM-UPT, простую, но эффективную структуру для неконтролируемого пост-обучения MLLMs. MM-UPT основывается на GRPO, заменяя традиционные сигналы вознаграждения механизмом само-вознаграждения, основанным на мажоритарном голосовании среди множества сэмплированных ответов. Наши эксперименты показывают, что MM-UPT значительно улучшает способность к рассуждению модели Qwen2.5-VL-7B (например, с 66.3 % до 72.9 % на MathVista, с 62.9 % до 68.7 % на We-Math), используя стандартные наборы данных без истинных меток. MM-UPT также превосходит предыдущие неконтролируемые базовые методы и даже приближается к результатам контролируемого GRPO. Кроме того, мы показываем, что включение синтетических вопросов, сгенерированных исключительно самой MLLM, также может повысить производительность, что подчеркивает перспективный подход для масштабируемого самоулучшения. В целом, MM-UPT предлагает новую парадигму для постоянного, автономного улучшения MLLMs в отсутствие внешнего контроля. Наш код доступен по адресу https://github.com/waltonfuture/MM-UPT.
Современные модели супер-разрешения на основе одного изображения (SISR) обеспечивают фотореалистичные результаты для масштабных коэффициентов, на которых они обучены, но терпят неудачу при попытке увеличения далеко за пределы этого диапазона. Мы решаем эту проблему масштабируемости с помощью Chain-of-Zoom (CoZ), модели-агностической структуры, которая разбивает SISR на авторегрессивную цепочку промежуточных масштабных состояний с использованием многоуровневых подсказок. CoZ многократно повторно использует базовую модель супер-разрешения, разлагая условную вероятность на решаемые подзадачи для достижения экстремальных разрешений без дополнительного обучения. Поскольку визуальные подсказки уменьшаются при высоком увеличении, мы дополняем каждый шаг увеличения многоуровневыми текстовыми подсказками, генерируемыми моделью "визуальный язык" (VLM). Сам экстрактор подсказок дорабатывается с использованием оптимизации политики обобщённого вознаграждения (GRPO) с критической VLM, согласовывая текстовые рекомендации с предпочтениями человека. Эксперименты показывают, что стандартная 4x диффузионная модель супер-разрешения, обёрнутая в CoZ, достигает увеличения более чем в 256 раз с высокой перцептивной качеством и точностью. Страница проекта: https://bryanswkim.github.io/chain-of-zoom/.
Эффективность механизма внимания имеет критическое значение, поскольку его временная сложность растет квадратично с увеличением длины последовательности. SageAttention2 решает эту проблему, используя квантование для ускорения матричных умножений (Matmul) в механизме внимания. Для дальнейшего ускорения SageAttention2 мы предлагаем использовать более быструю инструкцию FP8 Matmul с накоплением в FP16. Эта инструкция работает в 2 раза быстрее, чем FP8 Matmul, используемая в SageAttention2. Наши эксперименты показывают, что SageAttention2++ достигает ускорения в 3,9 раза по сравнению с FlashAttention, сохраняя при этом ту же точность внимания, что и SageAttention2. Это означает, что SageAttention2++ эффективно ускоряет различные модели, включая модели для генерации текста, изображений и видео, с незначительной потерей метрик на уровне всей системы. Код будет доступен по адресу https://github.com/thu-ml/SageAttention.
Последние достижения в области больших языковых моделей (LLM) продемонстрировали впечатляющие способности к цепочечному рассуждению, где обучение с подкреплением (RL) сыграло ключевую роль в этом прогрессе. Хотя паттерны "моментов озарения" — когда модели демонстрируют самокоррекцию через рефлексию — часто связывают с возникающими свойствами RL, мы впервые показываем, что эти паттерны существуют в мультимодальных LLM (MLLM) до обучения RL, но не обязательно коррелируют с улучшением качества рассуждений. Опираясь на эти наблюдения, мы представляем всестороннее исследование по улучшению мультимодального рассуждения с помощью двухэтапного подхода: (1) контролируемая тонкая настройка (SFT) в качестве "холодного старта" с использованием структурированных паттернов цепочечного рассуждения, за которой следует (2) обучение с подкреплением через GRPO для дальнейшего совершенствования этих способностей. Наши масштабные эксперименты показывают, что этот комбинированный подход стабильно превосходит методы, использующие только SFT или только RL, на сложных мультимодальных бенчмарках. Полученные модели достигают наилучших результатов среди открытых MLLM как на масштабах 3B, так и 7B, причем наша модель 7B демонстрирует значительные улучшения по сравнению с базовыми моделями (например, 66.3 %rightarrow73.4 % на MathVista, 62.9 %rightarrow70.4 % на We-Math), а наша модель 3B показывает результаты, сопоставимые с несколькими моделями 7B. В целом, эта работа предоставляет практические рекомендации для создания продвинутых моделей мультимодального рассуждения. Наш код доступен по адресу https://github.com/waltonfuture/RL-with-Cold-Start.
Мы представляем RenderFormer — нейронный конвейер рендеринга, который напрямую генерирует изображение из треугольного представления сцены с полными эффектами глобального освещения и не требует обучения или тонкой настройки для каждой конкретной сцены. Вместо физически-ориентированного подхода к рендерингу мы формулируем его как преобразование последовательности в последовательность, где последовательность токенов, представляющих треугольники с свойствами отражения, преобразуется в последовательность выходных токенов, представляющих небольшие участки пикселей. RenderFormer работает в два этапа: независимый от вида этап, который моделирует перенос света между треугольниками, и зависимый от вида этап, который преобразует токен, представляющий пучок лучей, в соответствующие значения пикселей, руководствуясь последовательностью треугольников из независимого этапа. Оба этапа основаны на архитектуре трансформера и обучаются с минимальными априорными ограничениями. Мы демонстрируем и оцениваем RenderFormer на сценах с различной сложностью формы и переноса света.
Предсказание следующего токена служит базовой задачей обучения, которая обеспечивает способность к рассуждению в больших языковых моделях (LLM). Однако какой должна быть задача обучения, если цель заключается в оснащении мультимодальных языковых моделей (MLLM) способностью к временному рассуждению на основе видео? Существующие задачи, такие как ответы на вопросы по видео, часто полагаются на аннотации, созданные людьми или более мощными MLLM, в то время как создание описаний к видео склонно смешивать временное рассуждение с пространственной информацией. Чтобы устранить этот пробел, мы предлагаем задачу предсказания следующего события (NEP), которая использует будущие сегменты видео как богатый, самообучаемый сигнал для развития временного рассуждения. Мы разделяем каждое видео на прошлые и будущие кадры: MLLM принимает прошлые кадры в качестве входных данных и предсказывает сводку событий, извлеченных из будущих кадров, тем самым побуждая модель рассуждать временно для выполнения задачи. Для поддержки этой задачи мы создаем V1-33K — набор данных, состоящий из 33 000 автоматически извлеченных видео-сегментов, охватывающих разнообразные реальные сценарии. Мы также исследуем ряд стратегий настройки инструкций для видео, чтобы изучить их влияние на временное рассуждение. Для оценки прогресса мы представляем FutureBench, который оценивает согласованность в предсказании будущих событий, не встречавшихся ранее. Эксперименты подтверждают, что NEP предлагает масштабируемую и эффективную парадигму обучения для развития временного рассуждения в MLLM.
Глубокие исследовательские системы представляют собой новый класс агентных методов поиска информации, которые генерируют всесторонние и хорошо обоснованные отчеты в ответ на сложные запросы. Однако большинство существующих фреймворков полагаются на динамические коммерческие поисковые API, что создает проблемы с воспроизводимостью и прозрачностью, а также увеличивает затраты. Для устранения этих ограничений мы представляем DeepResearchGym — открытую песочницу, которая сочетает воспроизводимый поисковый API с строгим протоколом оценки для тестирования глубоких исследовательских систем. API индексирует крупномасштабные публичные веб-корпуса, такие как ClueWeb22 и FineWeb, используя современный плотный ретривер и приближенный поиск ближайших соседей через DiskANN. Он обеспечивает меньшую задержку по сравнению с популярными коммерческими API, гарантируя стабильность ранжирования документов между запусками, и доступен для бесплатного использования в исследовательских целях. Для оценки выходных данных глубоких исследовательских систем мы расширяем бенчмарк Researchy Questions с помощью автоматических метрик, используя LLM-as-a-judge для измерения соответствия информационным потребностям пользователей, достоверности поиска и качества отчетов. Экспериментальные результаты показывают, что системы, интегрированные с DeepResearchGym, достигают производительности, сопоставимой с системами, использующими коммерческие API, при этом ранжирование производительности остается согласованным между различными метриками оценки. Исследование с участием людей дополнительно подтверждает, что наш автоматический протокол соответствует человеческим предпочтениям, что подтверждает способность фреймворка поддерживать контролируемую оценку глубоких исследовательских систем. Наш код и документация API доступны по адресу https://www.deepresearchgym.ai.
Корпоративные поисковые системы часто сталкиваются с трудностями при извлечении точной, предметно-ориентированной информации из-за семантических несоответствий и пересекающихся терминологий. Эти проблемы могут снижать производительность последующих приложений, таких как управление знаниями, поддержка клиентов и агенты генерации с усилением поиска. Для решения этой задачи мы предлагаем масштабируемую структуру для извлечения сложных негативных примеров, специально адаптированную для предметно-ориентированных корпоративных данных. Наш подход динамически выбирает семантически сложные, но контекстуально нерелевантные документы для улучшения развернутых моделей переранжирования. Наш метод интегрирует разнообразные модели эмбеддингов, выполняет снижение размерности и уникальным образом выбирает сложные негативные примеры, обеспечивая вычислительную эффективность и семантическую точность. Оценка на нашем проприетарном корпоративном корпусе (область облачных сервисов) демонстрирует значительное улучшение на 15% в MRR@3 и на 19% в MRR@10 по сравнению с современными базовыми методами и другими техниками негативной выборки. Дополнительная проверка на публичных предметно-ориентированных наборах данных (FiQA, Climate Fever, TechQA) подтверждает обобщаемость нашего метода и его готовность к применению в реальных условиях.
В данной работе мы представляем Few Shot Domain Adapting Graph (FS-DAG), масштабируемую и эффективную архитектуру модели для понимания визуально насыщенных документов (VRDU) в условиях ограниченного количества данных. FS-DAG использует специализированные для домена и языка/визуальных данных базовые модели в рамках модульной структуры, что позволяет адаптироваться к различным типам документов с минимальным объемом данных. Модель устойчива к практическим вызовам, таким как обработка ошибок OCR, опечаток и сдвигов домена, что критически важно для реальных применений. FS-DAG демонстрирует высокую производительность при менее чем 90 миллионах параметров, что делает её хорошо подходящей для сложных задач извлечения информации (IE) в условиях ограниченных вычислительных ресурсов. Мы демонстрируем возможности FS-DAG через обширные эксперименты по извлечению информации, показывая значительные улучшения в скорости сходимости и производительности по сравнению с современными методами. Кроме того, данная работа подчеркивает прогресс в разработке более компактных и эффективных моделей, которые не жертвуют производительностью. Код: https://github.com/oracle-samples/fs-dag.
Крупные языковые модели (LLMs) продемонстрировали впечатляющие общие способности, однако улучшение таких навыков, как рассуждение, часто требует значительных вычислительных ресурсов и может негативно сказаться на их обобщающей способности. Хотя методы параметрически-эффективной тонкой настройки (PEFT) предлагают более ресурсоэффективную альтернативу, они обычно требуют повторного обучения для каждой базовой архитектуры LLM из-за их архитектурной зависимости. Для решения этих проблем мы предлагаем Universal Reasoner (UniR) — единый, легковесный, композируемый и подключаемый модуль рассуждений, который может использоваться с любой замороженной LLM для наделения её специализированными способностями к рассуждению. В частности, UniR декомпозирует награду в отдельный модуль рассуждений, который обучается независимо с использованием предопределённых наград, эффективно преобразуя сигналы на уровне траекторий в руководство на уровне токенов. После обучения UniR может быть объединён с любой замороженной LLM на этапе вывода путём простого добавления его выходных логитов к логитам базовой LLM. Эта аддитивная структура естественным образом позволяет модульную композицию: несколько модулей UniR, обученных для разных задач, могут совместно применяться путём суммирования их логитов, что позволяет выполнять сложные рассуждения через композицию. Экспериментальные результаты на задачах математического рассуждения и машинного перевода показывают, что UniR значительно превосходит существующие базовые методы тонкой настройки с использованием модели Llama3.2. Более того, UniR демонстрирует сильное обобщение от слабых к сильным моделям: модули рассуждений, обученные на меньших моделях, эффективно направляют гораздо более крупные LLM. Это делает UniR экономически эффективным, адаптируемым и надёжным решением для улучшения способностей к рассуждению в LLM без ущерба для их основных возможностей. Код доступен по адресу: https://github.com/hangeol/UniR.
Решение сложных реальных задач требует глубокого поиска информации и многошагового рассуждения. Недавние достижения в области агентных систем, такие как Deep Research, подчеркивают потенциал автономного многошагового исследования. В данной работе мы представляем целостную парадигму для создания сквозных агентных систем поиска информации с точки зрения данных и этапов обучения. Наш подход состоит из четырех ключевых этапов: (1) построение данных для просмотра, (2) выборка траекторий, (3) тонкая настройка с учителем для эффективного холодного старта и (4) обучение с подкреплением для улучшения обобщения. Мы реализуем эту структуру в веб-агенте на основе ReAct, WebDancer. Эмпирические оценки на сложных бенчмарках поиска информации, GAIA и WebWalkerQA, демонстрируют высокую производительность WebDancer, достигая значительных результатов и подчеркивая эффективность нашей парадигмы обучения. Дополнительный анализ обучения агентов предоставляет ценные инсайты и систематические пути для разработки более мощных агентных моделей. Коды и демо будут доступны по адресу https://github.com/Alibaba-NLP/WebAgent.
Высококачественные многоязычные обучающие данные имеют решающее значение для эффективного предварительного обучения больших языковых моделей (LLM). Однако доступность подходящих открытых многоязычных наборов данных остается ограниченной. Существующие передовые наборы данных в основном полагаются на эвристические методы фильтрации, что ограничивает как их кросс-лингвистическую переносимость, так и масштабируемость. В данной работе мы представляем JQL — систематический подход, который эффективно отбирает разнообразные и высококачественные многоязычные данные в больших масштабах, значительно снижая вычислительные затраты. JQL преобразует возможности аннотирования LLM в легковесные аннотаторы на основе предварительно обученных многоязычных эмбеддингов. Эти модели демонстрируют устойчивую многоязычную и кросс-лингвистическую производительность, даже для языков и письменностей, не встречавшихся во время обучения. Эмпирически оцененный на 35 языках, результирующий конвейер аннотирования значительно превосходит текущие эвристические методы фильтрации, такие как Fineweb2. JQL заметно улучшает качество обучения моделей на последующих этапах и повышает уровень сохранения данных. Наше исследование предоставляет практические рекомендации и ценные ресурсы для курирования многоязычных данных, повышая стандарты разработки многоязычных наборов данных.
Авторегрессионные языковые модели (LM) генерируют по одному токену за раз, тогда как человеческое мышление оперирует более высокоуровневыми абстракциями — предложениями, утверждениями и концепциями. Это различие поднимает ключевой вопрос: могут ли LM аналогичным образом научиться рассуждать над структурированными семантическими единицами, а не над последовательностями сырых токенов? В данной работе мы исследуем, можно ли поднять предобученные LM в такие абстрактные пространства рассуждений, основываясь на их изученных представлениях. Мы представляем фреймворк, который адаптирует предобученную токен-уровневую LM для работы в пространстве предложений, авторегрессивно предсказывая непрерывные эмбеддинги следующих предложений. Мы исследуем две парадигмы эмбеддингов, вдохновленные классическим обучением представлений: 1) семантические эмбеддинги, изучаемые через автоэнкодинг для сохранения поверхностного смысла; и 2) контекстуальные эмбеддинги, обучаемые через предсказание следующего предложения для кодирования предсказательной структуры. Мы оцениваем обе парадигмы в двух режимах вывода: Дискретизированном, где каждый предсказанный эмбеддинг декодируется в текст перед повторным кодированием; и Непрерывном, где рассуждения полностью происходят в пространстве эмбеддингов для повышения эффективности. В четырех областях — математике, логике, здравом смысле и планировании — контекстуальные эмбеддинги в режиме непрерывного вывода демонстрируют конкурентоспособную производительность с Chain-of-Thought (CoT), сокращая при этом количество FLOPs во время вывода в среднем вдвое. Мы также представляем первые признаки масштабируемости и модульной адаптации. Наконец, для визуализации скрытых траекторий мы представляем SentenceLens — диагностический инструмент, который декодирует промежуточные состояния модели в интерпретируемые предложения. В совокупности наши результаты указывают на то, что предобученные LM могут эффективно переходить к абстрактным структурированным рассуждениям в скрытых пространствах эмбеддингов.
Недавний успех моделей диффузии для генерации изображений из текста, таких как Stable Diffusion, стимулировал исследования по их адаптации для создания 360-градусных панорам. Предыдущие работы продемонстрировали возможность использования традиционных методов низкоранговой адаптации на предварительно обученных моделях диффузии для генерации панорамных изображений. Однако значительный разрыв между перспективными и панорамными изображениями вызывает вопросы о механизмах, лежащих в основе этого эмпирического успеха. Мы выдвигаем гипотезу и исследуем, что обучаемые компоненты демонстрируют различные поведенческие особенности при тонкой настройке на панорамных данных, и такая адаптация скрывает некоторые внутренние механизмы, позволяющие использовать предварительные знания, заложенные в моделях диффузии. Наш анализ выявил следующее: 1) матрицы запросов и ключей в модулях внимания отвечают за общую информацию, которая может быть разделена между панорамным и перспективным доменами, и поэтому менее значимы для генерации панорам; 2) матрицы значений и выходных весов специализируются на адаптации предварительно полученных знаний к панорамному домену, играя более важную роль в процессе тонкой настройки для генерации панорам. Мы эмпирически подтверждаем эти выводы, представляя простую структуру под названием UniPano, целью которой является создание элегантного базиса для будущих исследований. UniPano не только превосходит существующие методы, но и значительно сокращает использование памяти и время обучения по сравнению с предыдущими подходами с двумя ветвями, что делает его масштабируемым для сквозной генерации панорам с более высоким разрешением. Код будет опубликован.
Отличительной чертой человеческих инноваций является процесс рекомбинации — создание оригинальных идей путем интеграции элементов существующих механизмов и концепций. В данной работе мы автоматически анализируем научную литературу и создаем CHIMERA: крупномасштабную базу знаний (KB) примеров рекомбинации. CHIMERA может быть использована для эмпирического исследования в масштабе того, как ученые комбинируют концепции и черпают вдохновение из различных областей, или для обучения моделей машинного обучения с учителем, которые учатся предсказывать новые креативные междисциплинарные направления. Для создания этой базы знаний мы представляем новую задачу извлечения информации — извлечение рекомбинации из аннотаций научных статей, собираем высококачественный корпус из сотен аннотаций, аннотированных вручную, и используем его для обучения модели извлечения на основе LLM. Модель применяется к большому корпусу статей в области ИИ, что позволяет получить базу знаний, содержащую более 28 тыс. примеров рекомбинации. Мы анализируем CHIMERA, чтобы изучить свойства рекомбинации в различных подразделах ИИ. Наконец, мы обучаем модель генерации научных гипотез с использованием базы знаний, которая предсказывает новые направления рекомбинации, вдохновляющие реальных исследователей. Наши данные и код доступны по адресу https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
Надежная маршрутизация в условиях неопределенности является ключевым аспектом реальной логистики, однако большинство тестовых наборов предполагают статические, идеализированные условия. Мы представляем SVRPBench — первый открытый тестовый набор, который учитывает стохастическую динамику высокой точности в маршрутизации транспортных средств на городском уровне. Он охватывает более 500 примеров с числом клиентов до 1000, моделируя реалистичные условия доставки: зависящие от времени заторы, логнормальные задержки, вероятностные аварии и эмпирически обоснованные временные окна для жилых и коммерческих клиентов. Наш конвейер генерирует разнообразные сценарии с множеством ограничений, включая многодепотные и многотранспортные конфигурации. Тестирование показывает, что современные методы решения на основе обучения с подкреплением, такие как POMO и AM, теряют более 20% эффективности при сдвиге распределения, в то время как классические и метаэвристические методы остаются устойчивыми. Для обеспечения воспроизводимости исследований мы публикуем набор данных и инструменты для оценки. SVRPBench бросает вызов сообществу, предлагая разработать решения, которые обобщаются за пределы синтетических предположений и адаптируются к неопределенности реального мира.
Крупные языковые модели (LLM) обычно генерируют идентичные или схожие ответы для всех пользователей при одинаковом запросе, что создает серьезные риски для безопасности в критически важных приложениях, где уязвимости пользователей значительно различаются. Существующие оценки безопасности в основном опираются на контекстно-независимые метрики, такие как фактическая точность, предвзятость или токсичность, упуская из виду тот факт, что один и тот же ответ может нести различные риски в зависимости от фона или состояния пользователя. Мы вводим концепцию персонализированной безопасности, чтобы заполнить этот пробел, и представляем PENGUIN — эталонный набор, включающий 14 000 сценариев в семи чувствительных областях с вариантами, как с богатым контекстом, так и без него. Оценивая шесть ведущих LLM, мы показываем, что персонализированная информация о пользователе значительно улучшает показатели безопасности на 43,2%, подтверждая эффективность персонализации в обеспечении безопасности. Однако не все атрибуты контекста в равной степени способствуют улучшению безопасности. Для решения этой проблемы мы разрабатываем RAISE — двухэтапную агентскую структуру, не требующую обучения, которая стратегически собирает информацию о фоне пользователя. RAISE улучшает показатели безопасности до 31,6% по сравнению с шестью базовыми LLM, сохраняя при этом низкую стоимость взаимодействия — всего 2,7 запроса к пользователю в среднем. Наши результаты подчеркивают важность избирательного сбора информации в критически важных для безопасности областях и предлагают практическое решение для персонализации ответов LLM без переобучения модели. Эта работа закладывает основу для исследований в области безопасности, которые адаптируются к индивидуальным контекстам пользователей, а не предполагают универсальный стандарт вреда.
В архитектурах Transformer токены — дискретные единицы, полученные из исходных данных — формируются путем разделения входных данных на фиксированные по длине фрагменты. Каждый токен затем отображается в эмбеддинг, что позволяет выполнять параллельные вычисления внимания, сохраняя при этом ключевую информацию входных данных. Из-за квадратичной вычислительной сложности механизмов самовнимания в трансформерах, сокращение токенов в основном использовалось как стратегия повышения эффективности. Это особенно актуально в областях обработки изображений и текста, где оно помогает сбалансировать вычислительные затраты, использование памяти и задержку при выводе. Несмотря на эти достижения, в данной статье утверждается, что сокращение токенов должно выйти за рамки своей традиционной роли, ориентированной на эффективность, в эпоху крупных генеративных моделей. Вместо этого мы позиционируем его как фундаментальный принцип в генеративном моделировании, критически влияющий как на архитектуру модели, так и на более широкие приложения. В частности, мы утверждаем, что в системах обработки изображений, текста и мультимодальных системах сокращение токенов может: (i) способствовать более глубокой мультимодальной интеграции и согласованию, (ii) смягчать "переобдумывание" и галлюцинации, (iii) поддерживать согласованность при работе с длинными входными данными и (iv) повышать стабильность обучения и т.д. Мы переосмысливаем сокращение токенов как нечто большее, чем мера эффективности. Таким образом, мы намечаем перспективные направления будущих исследований, включая проектирование алгоритмов, сокращение токенов под руководством обучения с подкреплением, оптимизацию токенов для обучения в контексте, а также более широкие области машинного обучения и науки. Мы подчеркиваем его потенциал для создания новых архитектур моделей и стратегий обучения, которые повышают устойчивость, увеличивают интерпретируемость и лучше согласуются с целями генеративного моделирования.
По мере того как крупные языковые модели (LLM) всё активнее участвуют во взаимодействиях между человеком и ИИ, оценка их способностей к теории сознания (ToM) — особенно их умения отслеживать динамические ментальные состояния — становится крайне важной. Хотя существующие тесты оценивают базовые способности ToM, они в основном сосредоточены на статичных снимках ментальных состояний, упуская из виду временную эволюцию, которая характерна для реальных социальных взаимодействий. Мы представляем DynToM, новый тест, специально разработанный для оценки способности LLM понимать и отслеживать временное развитие ментальных состояний в связанных сценариях. С помощью систематической четырёхэтапной структуры мы создали 1 100 социальных контекстов, включающих 5 500 сценариев и 78 100 вопросов, каждый из которых проверен на реалистичность и качество. Наше всестороннее тестирование десяти современных LLM показывает, что их средняя производительность отстаёт от человеческой на 44,7 %, причём производительность значительно снижается при отслеживании и анализе изменений ментальных состояний. Этот разрыв в производительности подчеркивает фундаментальные ограничения современных LLM в моделировании динамической природы человеческих ментальных состояний.
Мы представляем новый подход под названием «Мышление с генерируемыми изображениями», который кардинально меняет то, как крупные мультимодальные модели (LMM) взаимодействуют с визуальным мышлением, позволяя им естественным образом мыслить на стыке текстовых и визуальных модальностей через спонтанное создание промежуточных визуальных шагов мышления. Современные методы визуального рассуждения с использованием LMM ограничены либо обработкой фиксированных изображений, предоставленных пользователем, либо рассуждениями исключительно через текстовые цепочки мыслей (CoT). Наш подход открывает новое измерение когнитивных возможностей, в рамках которого модели могут активно конструировать промежуточные визуальные мысли, критически оценивать свои визуальные гипотезы и совершенствовать их как неотъемлемые компоненты процесса рассуждения. Мы демонстрируем эффективность нашего подхода через два взаимодополняющих механизма: (1) генерацию визуальных данных с промежуточными визуальными подцелями, где модели разбивают сложные визуальные задачи на управляемые компоненты, которые генерируются и интегрируются постепенно, и (2) генерацию визуальных данных с самокритикой, где модели создают начальную визуальную гипотезу, анализируют её недостатки через текстовое рассуждение и производят уточнённые результаты на основе собственной критики. Наши эксперименты на бенчмарках генерации визуальных данных показывают значительные улучшения по сравнению с базовыми подходами, при этом наши модели достигают относительного улучшения до 50% (с 38% до 57%) в обработке сложных сценариев с множеством объектов. От биохимиков, исследующих новые структуры белков, и архитекторов, итеративно разрабатывающих пространственные проекты, до криминалистов, восстанавливающих места преступлений, и баскетболистов, визуализирующих стратегические ходы, наш подход позволяет моделям ИИ участвовать в визуальном воображении и итеративном совершенствовании, что характерно для человеческого творческого, аналитического и стратегического мышления. Мы публикуем наш открытый набор инструментов по адресу https://github.com/GAIR-NLP/thinking-with-generated-images.
В данной статье исследуются подходы к улучшению способностей к рассуждению агентов на основе больших языковых моделей (LLM) с использованием обучения с подкреплением (RL). В частности, мы сосредоточены на сценариях многошагового использования инструментов, которые естественным образом могут быть смоделированы как марковские процессы принятия решений (MDP). Хотя существующие подходы часто обучают многошаговых LLM-агентов с оценкой преимуществ на уровне траекторий в условиях бандитских задач, они сталкиваются с трудностями в распределении вклада на уровне отдельных шагов при принятии решений, что ограничивает их производительность в задачах многошагового рассуждения. Для решения этой проблемы мы предлагаем стратегию более детальной оценки преимуществ на уровне отдельных шагов, что позволяет более точно распределять вклад в многошаговых взаимодействиях агентов. Эта стратегия является универсальной и может быть интегрирована в различные алгоритмы RL, такие как Group Relative Preference Optimization (GRPO). Наши эксперименты на задачах многошагового рассуждения и использования инструментов на основе поиска с реализациями GRPO демонстрируют эффективность MDP-подхода и распределения вклада на уровне шагов в улучшении способностей LLM-агентов к многошаговому рассуждению в сложных условиях принятия решений. Наш метод достигает 100% успешности в выполнении инструментов и 50% точности в точном совпадении ответов, значительно превосходя базовые методы, которые не могут вызывать инструменты и достигают точности совпадения всего 20-30%.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждению благодаря подходам масштабирования во время тестирования, особенно при тонкой настройке с использованием данных цепочки рассуждений (CoT), извлеченных из более мощных моделей для сложных рассуждений (LRM). Однако эти цепочки рассуждений часто содержат избыточные элементы, которые отражают человеческий подход к решению задач, классифицируемые как прогрессивное рассуждение (основной путь разработки решения) и функциональные элементы (процессы проверки, альтернативные подходы к решению и исправление ошибок). Хотя прогрессивное рассуждение является ключевым, функциональные элементы значительно увеличивают вычислительные затраты во время тестового вывода. Мы представляем PIR (Perplexity-based Importance Refinement) — принципиальную структуру, которая количественно оценивает важность каждого шага рассуждения на основе его влияния на уверенность в предсказании ответа. PIR систематически идентифицирует и выборочно удаляет только низкозначимые функциональные шаги, сохраняя компоненты прогрессивного рассуждения, создавая оптимизированные обучающие данные, которые сохраняют целостность основного пути решения, уменьшая избыточность. Модели, настроенные на данных, оптимизированных с помощью PIR, демонстрируют превосходные свойства масштабирования во время тестирования, генерируя более лаконичные цепочки рассуждений при одновременном повышении точности (+0,9\% до +6,6\%) с существенным сокращением использования токенов (-3\% до -41\%) на сложных тестах на рассуждение (AIME, AMC и GPQA Diamond). Наш подход демонстрирует высокую обобщаемость для различных размеров моделей, источников данных и бюджетов токенов, предлагая практическое решение для развертывания LLM с возможностями рассуждения в сценариях, где важны эффективное масштабирование во время тестирования, время отклика и вычислительная эффективность.
Эффективное извлечение, рассуждение и понимание визуально насыщенной информации остаются сложной задачей для методов RAG (Retrieval-Augmented Generation). Традиционные текстовые методы не способны обрабатывать визуально связанную информацию. С другой стороны, современные подходы RAG, основанные на обработке изображений, часто ограничены фиксированными конвейерами и испытывают трудности с эффективным рассуждением из-за недостаточной активации базовых возможностей моделей. Поскольку RL (обучение с подкреплением) доказало свою полезность для рассуждений моделей, мы представляем VRAG-RL — новый RL-фреймворк, разработанный для сложного рассуждения в контексте визуально насыщенной информации. В этом фреймворке модели визуального языка (VLMs) взаимодействуют с поисковыми системами, автономно выбирая одношаговые или многошаговые траектории рассуждения с помощью визуальных токенов восприятия и подвергаясь постоянной оптимизации на основе этих выборок. Наш подход подчеркивает ключевые ограничения RL в областях RAG: (i) Предыдущие мультимодальные подходы RAG часто лишь включают изображения в контекст, что приводит к недостаточному распределению токенов рассуждения и игнорированию визуально-специфического восприятия; (ii) Когда модели взаимодействуют с поисковыми системами, их запросы часто не могут извлечь релевантную информацию из-за неспособности четко сформулировать требования, что приводит к неоптимальной производительности. Для решения этих проблем мы определяем пространство действий, адаптированное для визуально насыщенных входных данных, включая такие действия, как обрезка и масштабирование, что позволяет модели собирать информацию от общего к детальному. Кроме того, чтобы сократить разрыв между исходными запросами пользователей и извлекающей системой, мы используем простую, но эффективную награду, которая интегрирует переформулирование запросов и производительность извлечения с наградой, основанной на модели. Наш VRAG-RL оптимизирует VLMs для задач RAG с помощью специально разработанных RL-стратегий, согласовывая модель с реальными приложениями. Код доступен по адресу https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
Современные подходы к управлению 3D-камерой в моделях диффузии видео (VDMs) часто создают опорные видео для направления диффузионных моделей в качестве структурированного априори, рендеря их из оцененных облаков точек, следующих аннотированным траекториям камеры. Однако ошибки, присущие оценке облаков точек, часто приводят к неточным опорным видео. Более того, требование обширных аннотаций траекторий камеры дополнительно увеличивает затраты ресурсов. Чтобы устранить эти ограничения, мы представляем EPiC — эффективную и точную структуру обучения управлению камерой, которая автоматически создает высококачественные опорные видео без дорогостоящих аннотаций траекторий камеры. Конкретно, мы создаем высокоточные опорные видео для обучения, маскируя исходные видео на основе видимости первого кадра. Этот подход обеспечивает высокую согласованность, устраняет необходимость в аннотациях траекторий камеры и, таким образом, может быть легко применен к любому видео "в дикой природе" для создания пар обучения "изображение-в-видео" (I2V). Кроме того, мы представляем Anchor-ControlNet — легковесный модуль кондиционирования, который интегрирует руководство опорным видео в видимых областях в предобученные VDMs, используя менее 1% параметров базовой модели. Комбинируя предложенные данные опорного видео и модуль ControlNet, EPiC достигает эффективного обучения с существенно меньшим количеством параметров, шагов обучения и данных, без необходимости модификации базовой модели диффузии, которая обычно требуется для устранения несоответствий рендеринга. Хотя обучение проводится на опорных видео, созданных с помощью маскирования, наш метод надежно обобщается на опорные видео, созданные с использованием облаков точек во время вывода, обеспечивая точное управление камерой с учетом 3D. EPiC демонстрирует наилучшие результаты на RealEstate10K и MiraData для задачи управления камерой I2V, показывая точное и надежное управление камерой как количественно, так и качественно. Примечательно, что EPiC также демонстрирует сильное обобщение в сценариях "видео-в-видео" с нулевым обучением.
Переписывание описаний изображений широко используется для создания обучающих наборов данных повышенного качества для различных мультимодальных задач. Существующие методы переписывания обычно полагаются на мощные мультимодальные большие языковые модели (MLLM) для улучшения текстовых описаний, но часто страдают от неточностей из-за галлюцинаций и неполноты, вызванной отсутствием детализированных деталей. Чтобы устранить эти ограничения, мы предлагаем RICO — новый фреймворк, который уточняет описания через визуальную реконструкцию. В частности, мы используем модель преобразования текста в изображение для реконструкции описания в эталонное изображение и предлагаем MLLM выявить расхождения между оригинальным и реконструированным изображениями для уточнения описания. Этот процесс выполняется итеративно, что способствует постепенному созданию более точных и полных описаний. Для снижения дополнительных вычислительных затрат, вызванных итеративным процессом, мы представляем RICO-Flash, который обучается генерировать описания, подобные RICO, с использованием DPO. Многочисленные эксперименты демонстрируют, что наш подход значительно улучшает точность и полноту описаний, превосходя большинство базовых методов примерно на 10% как на CapsBench, так и на CompreCap. Код доступен по адресу: https://github.com/wangyuchi369/RICO.
Традиционный RLHF оптимизирует языковые модели с помощью грубых, скалярных вознаграждений, которые скрывают детальные причины успеха или неудачи, что приводит к медленному и непрозрачному обучению. Недавние работы дополняют RL текстовыми критиками через промптинг или рефлексию, улучшая интерпретируемость, но оставляя параметры модели неизменными. Мы представляем Text2Grad, парадигму обучения с подкреплением, которая преобразует свободный текстовый фидбэк в градиенты на уровне токенов. Получая человеческие (или программные) критические замечания, Text2Grad связывает каждую фразу фидбэка с соответствующими токенами, преобразует эти связи в дифференцируемые сигналы вознаграждения и выполняет обновления градиентов, которые напрямую улучшают проблемные части политики модели. Это позволяет осуществлять точные, обусловленные фидбэком корректировки вместо глобальных изменений. Text2Grad реализован через три компонента: (1) высококачественный конвейер аннотации фидбэка, который связывает критические замечания с токенами; (2) детализированная модель вознаграждения, которая предсказывает вознаграждение на уровне токенов при генерации объяснительных критических замечаний; и (3) оптимизатор политики на уровне токенов, который распространяет градиенты естественного языка обратно. В задачах суммаризации, генерации кода и ответов на вопросы Text2Grad последовательно превосходит RL со скалярными вознаграждениями и базовые подходы, основанные только на промптах, обеспечивая как более высокие метрики задач, так и более богатую интерпретируемость. Наши результаты демонстрируют, что фидбэк на естественном языке, преобразованный в градиенты, является мощным сигналом для детализированной оптимизации политики. Код нашего метода доступен по адресу https://github.com/microsoft/Text2Grad.
Модели, объединяющие зрение и язык (Vision Language Models, VLMs), обычно сочетают относительно небольшой визуальный кодировщик с крупной языковой моделью (Large Language Model, LLM), например, Llama-70B, что делает декодер основной вычислительной нагрузкой в процессе обучения. Для снижения затрат перспективной стратегией может быть предварительное обучение визуального кодировщика с использованием небольшой языковой модели перед его переносом на крупную. Мы создаем небольшие "суррогатные модели", которые разделяют то же пространство встраиваний и язык представлений, что и целевая крупная LLM, путем прямого наследования ее поверхностных слоев. Визуальные кодировщики, обученные на суррогатной модели, могут быть непосредственно перенесены на более крупную модель — процесс, который мы называем нулевым прививанием (zero-shot grafting). При подключении непосредственно к полномасштабной целевой LLM привитая пара превосходит пару кодировщик-суррогат, а на некоторых тестовых наборах данных демонстрирует результаты, сопоставимые с полным обучением декодера с целевой LLM. Более того, наш подход к обучению на суррогатных моделях снижает общие затраты на обучение VLM примерно на 45% при использовании Llama-70B в качестве декодера.
Создание высококачественных многослойных прозрачных изображений на основе текстовых запросов может открыть новый уровень творческого контроля, позволяя пользователям редактировать каждый слой так же легко, как текстовые выходы языковых моделей (LLM). Однако разработка многослойных генеративных моделей отстает от традиционных моделей "текст-в-изображение" из-за отсутствия крупного, высококачественного корпуса данных с многослойной прозрачностью. В данной работе мы решаем эту фундаментальную задачу, предлагая: (i) первый открытый набор данных PrismLayers (PrismLayersPro) с ультравысокой точностью, содержащий 200K (20K) многослойных прозрачных изображений с точными альфа-масками, (ii) метод синтеза данных на лету с использованием готовых диффузионных моделей, не требующий обучения, и (iii) мощную открытую модель многослойной генерации ART+, которая соответствует эстетике современных моделей "текст-в-изображение". Ключевые технические достижения включают: LayerFLUX, который эффективно генерирует высококачественные отдельные прозрачные слои с точными альфа-масками, и MultiLayerFLUX, который объединяет выходы LayerFLUX в цельные изображения, руководствуясь семантической разметкой, созданной человеком. Для обеспечения высочайшего качества мы применяем строгую фильтрацию для удаления артефактов и семантических несоответствий, за которой следует ручной отбор. Тонкая настройка передовой модели ART на нашем синтетическом наборе PrismLayersPro приводит к созданию ART+, которая превосходит оригинальную ART в 60% сравнений в пользовательских исследованиях и даже соответствует визуальному качеству изображений, генерируемых моделью FLUX.1-[dev]. Мы ожидаем, что наша работа заложит прочную основу для задач генерации многослойных прозрачных изображений, способствуя исследованиям и приложениям, требующим точных, редактируемых и визуально привлекательных слоистых изображений.
Надежные верификаторы играют ключевую роль в успехе обучения с подкреплением с верифицируемыми наградами (RLVR), которое является основной методологией, лежащей в основе различных крупных моделей рассуждений, таких как DeepSeek-R1. В сложных областях, таких как математические рассуждения, основанные на правилах верификаторы широко использовались в предыдущих работах для обучения мощных моделей рассуждений. Однако надежность этих верификаторов и их влияние на процесс обучения с подкреплением остаются недостаточно изученными. В данной работе мы рассматриваем математические рассуждения как пример и проводим всесторонний анализ различных верификаторов как в статической оценке, так и в сценариях обучения с подкреплением. Во-первых, мы обнаруживаем, что современные открытые верификаторы, основанные на правилах, часто не распознают эквивалентные ответы, представленные в разных форматах, в нескольких широко используемых математических наборах данных, что приводит к значительным уровням ложных отрицательных результатов. Это ограничение негативно сказывается на производительности обучения с подкреплением и становится более выраженным по мере усиления модели политики. Затем мы исследуем верификаторы, основанные на моделях, как потенциальное решение для устранения этих ограничений. Хотя статическая оценка показывает, что верификаторы, основанные на моделях, достигают значительно более высокой точности верификации, дальнейший анализ и результаты обучения с подкреплением указывают на их высокую уязвимость к взлому, когда они ошибочно классифицируют определенные шаблоны в ответах как правильные (т.е. ложные положительные результаты). Эта уязвимость эксплуатируется в процессе оптимизации модели политики, что приводит к искусственно завышенным наградам. Наши результаты подчеркивают уникальные риски, присущие как верификаторам, основанным на правилах, так и верификаторам, основанным на моделях, с целью предоставить ценные инсайты для разработки более надежных систем наград в обучении с подкреплением.
Разнообразие задач предсказания свойств белков традиционно требовало специализированных моделей, что затрудняло разработку универсальных и вычислительно эффективных языковых моделей для белков (Protein Language Models, PLMs). В данной работе мы представляем Prot2Token — унифицированную платформу, которая преодолевает эти ограничения, преобразуя широкий спектр задач, связанных с предсказанием свойств белков, от характеристик на уровне последовательностей и атрибутов отдельных остатков до сложных межбелковых взаимодействий, в стандартизированный формат предсказания следующего токена. В основе Prot2Token лежит авторегрессивный декодер, который использует эмбеддинги из предобученных белковых кодировщиков и управляется обучаемыми токенами задач для выполнения разнообразных предсказаний. Такая архитектура уникальным образом способствует многозадачному обучению, позволяя одной модели эффективно справляться с множеством задач. Мы представляем обширную экспериментальную проверку на различных бенчмарках, демонстрирующую высокую предсказательную способность Prot2Token в различных типах задач, связанных с белками. Ключевые результаты включают значительное ускорение (например, почти в 1000 раз по сравнению с AlphaFold2 при использовании MSA) и производительность, часто сопоставимую или превосходящую специализированные подходы. Кроме того, мы предлагаем дополнительный метод предобучения декодера с использованием самоконтроля для улучшения производительности в задачах, чувствительных к пространственной структуре. Таким образом, Prot2Token представляет собой значительный шаг к универсальной высокопроизводительной парадигме моделирования белков, что обещает ускорить биологические открытия и разработку новых терапевтических средств. Код доступен по адресу https://github.com/mahdip72/prot2token.
Манга, или японские комиксы, представляет собой богатую мультимодальную форму повествования, которая сложным образом сочетает изображения и текст. Обучение крупных мультимодальных моделей (LMM) пониманию таких нарративов на уровне, близком к человеческому, может помочь создателям манги анализировать и совершенствовать свои истории. С этой целью мы представляем два бенчмарка для мультимодального понимания манги: MangaOCR, ориентированный на распознавание текста на странице, и MangaVQA — новый бенчмарк, разработанный для оценки контекстуального понимания через визуальные вопросы и ответы. MangaVQA состоит из 526 высококачественных, вручную созданных пар вопрос-ответ, что позволяет проводить надежную оценку в разнообразных нарративных и визуальных сценариях. На основе этих бенчмарков мы разрабатываем MangaLMM — специализированную модель для манги, дообученную на базе открытой мультимодальной модели Qwen2.5-VL для совместного выполнения обеих задач. В ходе обширных экспериментов, включая сравнения с проприетарными моделями, такими как GPT-4o и Gemini 2.5, мы оцениваем, насколько хорошо LMM понимают мангу. Наши бенчмарк и модель предоставляют всеобъемлющую основу для оценки и развития LMM в богатой нарративной области манги.
Модели диффузии Text-to-Image (T2I) достигли значительных успехов в генеративном моделировании; однако они сталкиваются с компромиссом между скоростью вывода и качеством изображения, что создает трудности для эффективного развертывания. Существующие дистиллированные модели T2I способны генерировать изображения высокой точности с меньшим количеством шагов сэмплирования, но часто испытывают проблемы с разнообразием и качеством, особенно в одношаговых моделях. Наш анализ показывает наличие избыточных вычислений в энкодерах UNet. Наши наблюдения свидетельствуют о том, что для моделей диффузии T2I декодеры лучше справляются с захватом более богатой и явной семантической информации, в то время как энкодеры могут эффективно использоваться совместно для декодеров из различных временных шагов. На основе этих наблюдений мы представляем первый Time-independent Unified Encoder (TiUE) для архитектуры UNet в студенческой модели, который представляет собой подход к генерации изображений без циклов для дистилляции моделей диффузии T2I. Используя схему однократного прохода, TiUE делит признаки энкодера между несколькими временными шагами декодера, что позволяет проводить параллельное сэмплирование и значительно снижает временную сложность вывода. Кроме того, мы включаем член расхождения Кульбака-Лейблера для регуляризации предсказания шума, что улучшает перцептуальную реалистичность и разнообразие генерируемых изображений. Экспериментальные результаты показывают, что TiUE превосходит современные методы, включая LCM, SD-Turbo и SwiftBrushv2, создавая более разнообразные и реалистичные результаты при сохранении вычислительной эффективности.
Генеративные модели ИИ часто обучаются и воспроизводят ложную информацию, присутствующую в их обучающих корпусах. В данной позиционной статье утверждается, что, по аналогии с биологической иммунизацией, при которой контролируемое воздействие ослабленного патогена формирует иммунитет, модели ИИ следует дообучать на небольших, изолированных наборах явно помеченных ложных утверждений, используя их как "вакцину" против дезинформации. Эти тщательно отобранные примеры ложной информации периодически вводятся в процесс дообучения, укрепляя способность модели распознавать и отвергать вводящие в заблуждение утверждения, сохраняя при этом точность на правдивых данных. Иллюстративное исследование показывает, что "иммунизированные" модели генерируют значительно меньше дезинформации по сравнению с базовыми. Насколько нам известно, это первый подход к обучению, который рассматривает проверенные фактами ложные утверждения как контролируемую вакцину, вместо того чтобы полагаться на искажение входных данных или общие сигналы обратной связи от людей, чтобы сделать модели устойчивыми к будущей дезинформации. Мы также описываем этические меры предосторожности и механизмы управления, чтобы обеспечить безопасное использование ложных данных. Иммунизация моделей предлагает проактивную парадигму для согласования систем ИИ с фактологией.
Мгновенная стилизация 3D-сцен с сохранением согласованности между видами и точным воспроизведением стиля изображения остается серьезной задачей. Современные методы стилизации 3D обычно требуют вычислительно затратной оптимизации на этапе тестирования для переноса художественных особенностей в предварительно обученное 3D-представление, часто с использованием плотных наборов изображений с известными позами. В отличие от этого, используя последние достижения в моделях прямого восстановления, мы предлагаем новый подход, позволяющий достичь прямой стилизации 3D менее чем за секунду с использованием неориентированных изображений сцены с разреженными видами и произвольного стилевого изображения. Для решения проблемы разделения задач восстановления и стилизации мы вводим разветвленную архитектуру, которая разделяет моделирование структуры и затенение внешнего вида, эффективно предотвращая искажение базовой структуры 3D-сцены при переносе стиля. Кроме того, мы адаптируем функцию потерь идентичности для облегчения предварительного обучения модели стилизации через задачу синтеза новых видов. Эта стратегия также позволяет нашей модели сохранять исходные возможности восстановления, одновременно настраиваясь для стилизации. Комплексные оценки, проведенные на наборах данных как из домена, так и за его пределами, демонстрируют, что наш подход создает высококачественный стилизованный 3D-контент, который достигает превосходного сочетания стиля и внешнего вида сцены, а также превосходит существующие методы по согласованности между видами и эффективности.
Эффективный отбор данных имеет решающее значение для эффективного обучения современных больших языковых моделей (LLM). В данной статье представлен Influence Distillation — новый, математически обоснованный фреймворк для отбора данных, который использует информацию второго порядка для оптимального взвешивания обучающих выборок. Путем "дистилляции" влияния каждой выборки на целевую распределение наш метод присваивает специфичные для модели веса, которые используются для отбора данных для тонкой настройки LLM, направляя её к высокой производительности в целевом домене. Мы выводим эти оптимальные веса как для градиентного спуска, так и для оптимизатора Adam. Для обеспечения масштабируемости и снижения вычислительных затрат мы предлагаем аппроксимацию на основе "ориентиров": влияние точно вычисляется для небольшого подмножества "ориентирных" выборок, а затем эффективно распространяется на все остальные выборки для определения их весов. Мы проверяем Influence Distillation, применяя его для настройки инструкций на наборе данных Tulu V2, ориентируясь на ряд задач, включая GSM8k, SQuAD и MMLU, для нескольких моделей из семейств Llama и Qwen. Эксперименты показывают, что Influence Distillation соответствует или превосходит современные методы по производительности, достигая при этом до 3.5 раз более быстрого отбора.
Последние достижения в области визуальных языковых моделей (VLMs) продемонстрировали исключительную производительность в задачах визуального анализа. Однако геолокация представляет собой уникальные вызовы, требующие извлечения многоуровневых визуальных признаков из изображений и их интеграции с внешними знаниями о мире для систематического рассуждения. Современные подходы к задачам геолокации часто страдают от отсутствия надежных механизмов рассуждения и объяснимости, что ограничивает их эффективность. Для устранения этих ограничений мы предлагаем набор Geo Reason Enhancement (GRE) — новый фреймворк, который расширяет VLMs структурированными цепочками рассуждений для точного и интерпретируемого вывода местоположения. Набор GRE разработан систематически по трем ключевым направлениям: набор данных, модель и эталон. Во-первых, мы представляем GRE30K — высококачественный набор данных для геолокационного анализа, предназначенный для облегчения детального визуального и контекстного анализа. Далее мы представляем модель GRE, которая использует многоэтапную стратегию рассуждений для постепенного вывода атрибутов сцены, локальных деталей и семантических признаков, тем самым сужая возможные географические регионы с повышенной точностью. Наконец, мы создаем эталон Geo Reason Evaluation Benchmark (GREval-Bench) — комплексную систему оценки, которая тестирует VLMs на разнообразных городских, природных и достопримечательных сценах для измерения как крупномасштабной (например, страна, континент), так и детальной (например, город, улица) локализации. Экспериментальные результаты показывают, что GRE значительно превосходит существующие методы на всех уровнях детализации задач геолокации, подчеркивая эффективность VLMs, усиленных рассуждениями, в сложных географических выводах. Код и данные будут доступны по адресу https://github.com/Thorin215/GRE.
Экспоненциальный рост генеративных моделей для видео усилил потребность в надежной защите авторских прав для контента, созданного с помощью ИИ. Несмотря на популярность невидимого генеративного водяного знака в синтезе изображений, эта технология остается малоизученной в области генерации видео. Чтобы восполнить этот пробел, мы предлагаем Safe-Sora — первую платформу для встраивания графических водяных знаков непосредственно в процесс генерации видео. Вдохновленные наблюдением, что эффективность водяного знака тесно связана с визуальным сходством между ним и основным контентом, мы вводим иерархический механизм адаптивного сопоставления от грубого к точному. В частности, изображение водяного знака разделяется на патчи, каждый из которых назначается наиболее визуально похожему кадру видео, а затем локализуется в оптимальной пространственной области для бесшовного встраивания. Для обеспечения пространственно-временного слияния патчей водяного знака между кадрами видео мы разработали архитектуру Mamba, усиленную 3D-вейвлет-преобразованием, с новой стратегией локального сканирования в пространстве и времени, эффективно моделирующей долгосрочные зависимости в процессе встраивания и извлечения водяного знака. Насколько нам известно, это первая попытка применения моделей пространства состояний к водяным знакам, открывающая новые пути для эффективной и устойчивой защиты. Многочисленные эксперименты демонстрируют, что Safe-Sora достигает передовых показателей по качеству видео, точности водяного знака и устойчивости, что во многом обусловлено нашими предложениями. Мы опубликуем наш код после выхода статьи.
Обучение с подкреплением (RL) способствовало значительному прогрессу в робототехнике, однако его сложность и длительное время обучения остаются основными препятствиями. В данном отчете мы представляем FastTD3 — простой, быстрый и эффективный алгоритм RL, который значительно ускоряет обучение гуманоидных роботов в популярных средах, таких как HumanoidBench, IsaacLab и MuJoCo Playground. Наш подход удивительно прост: мы обучаем off-policy агента TD3 с несколькими модификациями — параллельное моделирование, крупнопакетные обновления, распределенный критик и тщательно настроенные гиперпараметры. FastTD3 решает ряд задач из HumanoidBench менее чем за 3 часа на одной видеокарте A100, сохраняя стабильность в процессе обучения. Мы также предоставляем легковесную и удобную в использовании реализацию FastTD3 для ускорения исследований в области RL в робототехнике.
Тонкая настройка крупных языковых моделей (LLM) значительно улучшила их способность следовать инструкциям, однако лежащие в основе вычислительные механизмы, ответственные за эти улучшения, остаются плохо изученными. В данном исследовании систематически изучается, как тонкая настройка перестраивает вычисления в LLM, путем выделения и анализа разреженных компонентов, специфичных для инструкций, таких как нейроны в плотных моделях, а также нейроны и эксперты в архитектурах типа "Смесь экспертов" (MoE). В частности, мы представляем HexaInst — тщательно подобранный и сбалансированный набор данных, охватывающий шесть различных категорий инструкций, и предлагаем SPARCOM — новый аналитический фреймворк, включающий три ключевых компонента: (1) метод идентификации этих разреженных компонентов, (2) оценку их функциональной общности и уникальности, и (3) систематическое сравнение их изменений. В ходе экспериментов мы демонстрируем функциональную общность, уникальность и критическую роль этих компонентов в выполнении инструкций. Проясняя связь между адаптациями, вызванными тонкой настройкой, и разреженными вычислительными субстратами, эта работа углубляет понимание того, как LLM усваивают поведение, связанное с выполнением инструкций, что важно для развития доверенного сообщества LLM.
Интеллектуальные системы обучения в сочетании с крупными языковыми моделями предлагают перспективный подход для удовлетворения разнообразных потребностей студентов и содействия самоэффективному обучению. Хотя крупные языковые модели обладают хорошими базовыми знаниями в области основ электротехники, они остаются недостаточно способными для решения конкретных вопросов, связанных с электрическими цепями. В данной статье мы представляем AITEE, агентно-ориентированную систему обучения для электротехники, разработанную для сопровождения студентов на протяжении всего процесса обучения, предоставления индивидуальной поддержки и содействия самостоятельному обучению. AITEE поддерживает как рукописные, так и цифровые схемы благодаря адаптированному процессу реконструкции цепей, что обеспечивает естественное взаимодействие со студентами. Наша новая графовая мера сходства выявляет релевантный контекст из материалов лекций с использованием подхода генерации с усилением поиска, а параллельное моделирование в Spice дополнительно повышает точность применения методик решения. Система реализует сократический диалог для развития автономии обучающихся через направленные вопросы. Экспериментальные оценки показывают, что AITEE значительно превосходит базовые подходы в применении предметных знаний, при этом даже модели языковых моделей среднего размера демонстрируют приемлемую производительность. Наши результаты подчеркивают потенциал агентных тьюторов для создания масштабируемых, персонализированных и эффективных образовательных сред в области электротехники.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), достигли значительного прогресса в решении мультимодальных задач. Однако их производительность часто снижается в сценариях с длинным контекстом, особенно при работе с длинными видео. Хотя Rotary Position Embedding (RoPE) широко используется для обобщения на длинные контексты в больших языковых моделях (Large Language Models, LLMs), расширение базового RoPE для учета сложных пространственно-временных зависимостей в видео остается нерешенной задачей. Существующие методы обычно выделяют различные частоты в RoPE для кодирования 3D-позиционной информации. Однако эти стратегии распределения в основном основываются на эвристиках и не подкреплены глубоким теоретическим анализом. В данной работе мы впервые исследуем, как различные стратегии распределения влияют на способность VLMs работать с длинным контекстом. Наш анализ показывает, что текущие мультимодальные RoPE не способны надежно улавливать семантические сходства в расширенных контекстах. Для решения этой проблемы мы предлагаем HoPE (Hybrid of Position Embedding), гибридный подход к позиционному кодированию, предназначенный для улучшения способности VLMs работать с длинным контекстом. HoPE вводит гибридную стратегию распределения частот для надежного семантического моделирования в контекстах произвольной длины, а также механизм динамического временного масштабирования для облегчения устойчивого обучения и гибкого вывода на различных длинах контекста. Эксперименты на четырех видеобенчмарках для задач понимания и поиска в длинных видео демонстрируют, что HoPE стабильно превосходит существующие методы, подтверждая его эффективность. Код доступен по адресу https://github.com/hrlics/HoPE.
Быстрый рост открытых ресурсов машинного обучения (ML), таких как модели и наборы данных, ускорил исследования в области информационного поиска (IR). Однако существующие платформы, такие как Hugging Face, не используют явно структурированные представления, что ограничивает возможность выполнения сложных запросов и анализа, например, отслеживания эволюции моделей и рекомендации соответствующих наборов данных. Чтобы заполнить этот пробел, мы создали HuggingKG — первую крупномасштабную графовую базу знаний, построенную на основе сообщества Hugging Face для управления ресурсами ML. Содержащая 2,6 миллиона узлов и 6,2 миллиона связей, HuggingKG фиксирует доменно-специфические отношения и богатые текстовые атрибуты. Это позволяет нам представить HuggingBench — многозадачный бенчмарк с тремя новыми тестовыми коллекциями для задач IR, включая рекомендацию ресурсов, классификацию и отслеживание. Наши эксперименты выявляют уникальные характеристики HuggingKG и производных задач. Оба ресурса доступны публично и, как ожидается, будут способствовать развитию исследований в области обмена и управления открытыми ресурсами.
Понимание функциональных представлений в высших зрительных областях коры головного мозга является фундаментальным вопросом в вычислительной нейронауке. Хотя искусственные нейронные сети, предобученные на крупномасштабных наборах данных, демонстрируют поразительное соответствие репрезентаций с нейронными реакциями человека, обучение вычислительных моделей зрительной коры требует индивидуальных, крупномасштабных наборов данных фМРТ. Необходимость в дорогостоящем, трудоемком и зачастую непрактичном сборе данных ограничивает обобщаемость кодировщиков на новых субъектов и стимулы. BraInCoRL использует обучение в контексте для предсказания воксельных нейронных реакций на основе нескольких примеров без дополнительной дообучки для новых субъектов и стимулов. Мы применяем архитектуру трансформера, которая может гибко учитывать переменное количество контекстных зрительных стимулов, обучаясь индуктивному смещению на множестве субъектов. Во время обучения мы явно оптимизируем модель для обучения в контексте. Совместно учитывая признаки изображений и активации вокселей, наша модель учится непосредственно генерировать более эффективные воксельные модели высших зрительных областей коры. Мы показываем, что BraInCoRL стабильно превосходит существующие конструкции воксельных кодировщиков в условиях ограниченных данных при оценке на совершенно новых изображениях, а также демонстрирует сильное поведение масштабирования во время тестирования. Модель также обобщается на совершенно новый набор данных зрительной фМРТ, использующий разных субъектов и параметры сбора данных фМРТ. Кроме того, BraInCoRL способствует лучшей интерпретируемости нейронных сигналов в высших зрительных областях коры, обращая внимание на семантически значимые стимулы. Наконец, мы показываем, что наш фреймворк позволяет создавать интерпретируемые отображения из запросов на естественном языке в селективность вокселей.
Хотя возможности крупных языковых моделей (LLM) изучались как для упрощённого, так и для традиционного китайского письма, до сих пор неясно, демонстрируют ли LLM различающуюся производительность при запросах на этих двух вариантах письменного китайского языка. Это понимание крайне важно, поскольку различия в качестве ответов LLM могут усугублять репрезентационные проблемы, игнорируя различные культурные контексты, лежащие в основе упрощённого и традиционного китайского, а также усиливать негативные последствия в процессах принятия решений, опосредованных LLM, в таких областях, как образование или найм. Для исследования потенциальных различий в производительности LLM мы разработали два тестовых задания, отражающих реальные сценарии: выбор регионального термина (запрос к LLM назвать описанный объект, который по-разному именуется в материковом Китае и на Тайване) и выбор регионального имени (запрос к LLM выбрать кандидата для найма из списка имён как на упрощённом, так и на традиционном китайском). Для обоих заданий мы провели аудит производительности 11 ведущих коммерческих LLM-сервисов и моделей с открытым исходным кодом — включая те, которые в основном обучались на английском, упрощённом или традиционном китайском. Наши анализы показывают, что предвзятость в ответах LLM зависит как от задачи, так и от языка запроса: в то время как большинство LLM непропорционально часто отдавали предпочтение ответам на упрощённом китайском в задаче выбора регионального термина, они, что удивительно, чаще выбирали имена на традиционном китайском в задаче выбора регионального имени. Мы обнаружили, что эти различия могут возникать из-за разницы в представлении обучающих данных, предпочтениях в написании символов и токенизации упрощённого и традиционного китайского. Эти результаты подчеркивают необходимость дальнейшего анализа предвзятости LLM; в связи с этим мы предоставляем открытый набор тестовых данных для воспроизводимой оценки поведения будущих LLM в различных вариантах китайского языка (https://github.com/brucelyu17/SC-TC-Bench).
Понимание ориентации объектов представляет собой фундаментальную задачу в области визуального восприятия, критически важную для таких приложений, как роботизированное манипулирование и дополненная реальность. Современные бенчмарки, объединяющие зрение и язык, не способны изолировать эту способность, часто смешивая её с позиционными отношениями и общим пониманием сцены. Мы представляем DORI (Discriminative Orientation Reasoning Intelligence) — комплексный бенчмарк, который устанавливает восприятие ориентации объектов в качестве основной цели оценки. DORI оценивает четыре аспекта понимания ориентации: фронтальное выравнивание, вращательные преобразования, относительные направленные отношения и понимание канонической ориентации. С помощью тщательно отобранных задач из 11 наборов данных, охватывающих 67 категорий объектов в синтетических и реальных сценариях, DORI предоставляет insights о том, как мультимодальные системы понимают ориентацию объектов. Наша оценка 15 современных моделей, объединяющих зрение и язык, выявляет серьёзные ограничения: даже лучшие модели достигают точности всего 54,2% на простых задачах и 33,0% на задачах, требующих детального анализа ориентации, причём производительность ухудшается для задач, связанных с изменением системы отсчёта или сложными вращениями. Эти результаты демонстрируют необходимость разработки специализированных механизмов представления ориентации, так как модели систематически не способны выполнять точные угловые оценки, отслеживать изменения ориентации между точками зрения и понимать сложные вращения — что указывает на ограничения их внутренних 3D пространственных представлений. Будучи первой диагностической платформой, специально разработанной для оценки ориентационной осведомлённости в мультимодальных системах, DORI предлагает перспективы для улучшения управления роботами, реконструкции 3D сцен и взаимодействия человека с ИИ в физических средах. Данные DORI доступны по ссылке: https://huggingface.co/datasets/appledora/DORI-Benchmark.
Понимание временной структуры видео имеет решающее значение для мультимодальных больших языковых моделей (MLLMs), чтобы они могли анализировать события в видеороликах. Несмотря на недавние достижения в области общего понимания видео, современные MLLMs по-прежнему испытывают трудности с детальным временным анализом. Хотя для решения этой проблемы недавно изучалось применение обучения с подкреплением (RL), существующие подходы на основе RL остаются недостаточно эффективными. В данной работе мы предлагаем MUSEG — новый метод на основе RL, который улучшает временное понимание за счет введения временной привязки с учетом меток времени для нескольких сегментов. MUSEG позволяет MLLMs сопоставлять запросы с несколькими релевантными сегментами видео, способствуя более полному временному анализу. Для обеспечения эффективного обучения мы разработали специализированный рецепт обучения RL с поэтапными наградами, который постепенно направляет модель к временно обоснованному анализу. Эксперименты на задачах временной привязки и временно-чувствительного видео-вопросно-ответного анализа демонстрируют, что MUSEG значительно превосходит существующие методы и хорошо обобщается на различные сценарии временного понимания. Ознакомиться с проектом можно по ссылке: https://github.com/THUNLP-MT/MUSEG.
Крупные языковые модели (LLM) часто приобретают в процессе предварительного обучения знания, которые нежелательны для использования в последующих задачах, например, конфиденциальную информацию или защищённый авторским правом контент. Существующие подходы для удаления таких знаний основываются на тонкой настройке, обучении низкоранговых адаптеров или редактировании на уровне фактов, однако эти методы либо слишком грубы, либо поверхностны, либо неэффективны. В данной работе мы предлагаем PISCES (Precise In-parameter Suppression for Concept EraSure) — новый фреймворк для точного удаления целых концепций из параметров модели путём прямого редактирования направлений, кодирующих их в пространстве параметров. PISCES использует модель-разделитель для декомпозиции векторов MLP на интерпретируемые признаки, идентифицирует те из них, которые связаны с целевой концепцией, с помощью автоматизированных методов интерпретируемости, и удаляет их из параметров модели. Эксперименты на моделях Gemma 2 и Llama 3.1 для различных концепций показывают, что PISCES достигает умеренного улучшения эффективности по сравнению с ведущими методами удаления, снижая точность на целевой концепции до 7,7%, при этом значительно повышая специфичность удаления (до 31%) и устойчивость (до 38%). В целом, эти результаты демонстрируют, что редактирование параметров на основе признаков позволяет реализовать более точный и надёжный подход для удаления концептуальных знаний в языковых моделях.
Предварительное обучение на основе связей между языком и изображениями показало высокую производительность в 2D медицинской визуализации, но его успех в 3D модальностях, таких как КТ и МРТ, остается ограниченным из-за высоких вычислительных требований объемных данных, что создает значительные препятствия для обучения на крупномасштабных, некурированных клинических исследованиях. В данной работе мы представляем Иерархическое внимание для предварительного обучения на основе языка и изображений (HLIP), масштабируемую структуру предварительного обучения для 3D медицинской визуализации. HLIP использует легковесный механизм иерархического внимания, вдохновленный естественной иерархией радиологических данных: срез, сканирование и исследование. Этот механизм демонстрирует высокую обобщаемость, например, +4,3% макро AUC на бенчмарке Rad-ChestCT при предварительном обучении на CT-RATE. Более того, вычислительная эффективность HLIP позволяет проводить прямое обучение на некурированных наборах данных. Обучившись на 220 тыс. пациентов с 3,13 млн сканирований для МРТ мозга и 240 тыс. пациентов с 1,44 млн сканирований для КТ головы, HLIP достигает наилучших результатов, например, +32,4% сбалансированной точности на предложенном публично доступном бенчмарке Pub-Brain-5 для МРТ мозга; +1,4% и +6,9% макро AUC на бенчмарках RSNA и CQ500 для КТ головы соответственно. Эти результаты демонстрируют, что с HLIP прямое предварительное обучение на некурированных клинических наборах данных является масштабируемым и эффективным направлением для предварительного обучения на основе языка и изображений в 3D медицинской визуализации. Код доступен по адресу https://github.com/Zch0414/hlip.
Понимание и вывод причинно-следственных связей из текстов является ключевым аспектом человеческого познания и имеет важное значение для продвижения крупных языковых моделей (LLM) в направлении искусственного общего интеллекта. Существующие работы в основном сосредоточены на синтетически сгенерированных текстах, которые содержат простые причинно-следственные связи, явно упомянутые в тексте. Это не отражает сложности реальных задач. В данной статье мы исследуем, способны ли LLM выводить причинно-следственные связи из реальных текстов. Мы разрабатываем эталонный набор данных, основанный на реальной академической литературе, который включает разнообразные тексты с точки зрения длины, сложности отношений (разные уровни явности, количество событий и причинно-следственных связей), а также областей и подобластей. Насколько нам известно, наш эталонный набор данных является первым в своем роде для этой задачи. Эксперименты с современными LLM, проведенные на нашем предложенном эталоне, демонстрируют значительные трудности: лучшая модель достигает среднего значения F1-меры всего 0,477. Анализ выявляет типичные проблемы: сложности с неявно выраженной информацией, с выделением релевантных причинных факторов из контекстных деталей, а также с установлением связи между причинно значимой информацией, распределенной по длинным текстовым фрагментам. Систематически характеризуя эти недостатки, наш эталонный набор данных предоставляет целенаправленные инсайты для дальнейших исследований в области улучшения причинно-следственного рассуждения в LLM.
Масштабирование во время тестирования (Test-time scaling, TTS), которое предполагает динамическое распределение вычислительных ресурсов в процессе вывода, предлагает перспективный способ улучшения способности к рассуждению в больших языковых моделях. Хотя существующие методы TTS работают хорошо, они часто полагаются на длинные пути декодирования или требуют генерации большого количества выборок, что увеличивает использование токенов и задержку вывода. Мы наблюдаем удивительный факт, что для задач на рассуждение более короткие траектории с гораздо большей вероятностью оказываются правильными, чем длинные. Вдохновленные этим, мы представляем стратегию параллельного декодирования First Finish Search (FFS), которая не требует обучения, запускает n независимых выборок и возвращает результат, как только завершается любая из них. Мы оцениваем FFS наряду с простым декодированием, поиском по лучу, голосованием большинства и принудительным ограничением бюджета на четырех моделях для рассуждений (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B и Phi-4-Reasoning-Plus) и на четырех наборах данных (AIME24, AIME25-I, AIME25-II и GPQA Diamond). С моделью DeepSeek-R1 FFS достигает точности 82,23% на наборах данных AIME, что на 15% выше, чем точность DeepSeek-R1 в автономном режиме, почти соответствуя производительности OpenAI o4-mini. Наш теоретический анализ объясняет, почему остановка на самой короткой траектории с большой вероятностью дает правильный ответ, и определяет условия, при которых ранняя остановка может быть неоптимальной. Элегантность и простота FFS демонстрируют, что прямолинейные стратегии TTS могут работать исключительно хорошо, раскрывая неиспользованный потенциал простых подходов во время вывода.
Хотя крупные модели, работающие с визуальными и текстовыми данными (Vision-Language Models, VLMs), демонстрируют впечатляющие результаты в широком спектре мультимодальных задач, их истинные способности к рассуждению на тестах, аналогичных человеческим IQ, остаются недостаточно изученными. Для продвижения исследований в области подвижного интеллекта VLMs мы представляем **IQBench** — новый бенчмарк, предназначенный для оценки VLMs на стандартизированных визуальных тестах IQ. Мы сосредоточились на оценке способностей моделей к рассуждению, которые, по нашему мнению, важнее точности конечного предсказания. **Наш бенчмарк ориентирован на визуальную составляющую, минимизируя зависимость от избыточного текстового контента**, что побуждает модели выводить ответы преимущественно на основе информации из изображений, а не из усвоенных текстовых знаний. Для этого мы вручную собрали и аннотировали 500 визуальных вопросов IQ, чтобы **предотвратить непреднамеренную утечку данных во время обучения**. В отличие от предыдущих работ, которые в основном сосредоточены на точности конечного ответа, мы оцениваем способность моделей к рассуждению, анализируя их объяснения и шаблоны, используемые для решения каждой задачи, наряду с точностью конечного предсказания и оценкой человеком. Наши эксперименты показывают, что существуют значительные различия в производительности между задачами, при этом модели `o4-mini`, `gemini-2.5-flash` и `claude-3.7-sonnet` достигают наивысших средних показателей точности — 0,615, 0,578 и 0,548 соответственно. Однако все модели испытывают трудности с задачами на 3D-пространственное мышление и анаграммы, что подчеркивает существенные ограничения в общих способностях к рассуждению у современных VLMs. По показателям рассуждения модели `o4-mini`, `gemini-2.5-flash` и `claude-3.7-sonnet` достигли средних значений 0,696, 0,586 и 0,516 соответственно. Эти результаты выявляют несоответствия между процессами рассуждения моделей и их конечными ответами, подчеркивая важность оценки точности рассуждений в дополнение к конечным предсказаниям.