Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя парадигма «глубокого рассуждения» стимулировала значительные успехи в верифицируемых областях, таких как математика, её применение к открытым, творческим задачам генерации остаётся серьёзным вызовом. Два доминирующих метода для внедрения рассуждений — обучение с подкреплением (RL) и дистилляция инструкций — сталкиваются с трудностями в этой области: RL борется с отсутствием чётких сигналов вознаграждения и качественных моделей вознаграждения, а дистилляция оказывается чрезмерно затратной и ограниченной возможностями модели-учителя. Чтобы преодолеть эти ограничения, мы представляем REER (REverse-Engineered Reasoning) — новую парадигму, которая принципиально меняет подход. Вместо построения процесса рассуждения «вперёд» через метод проб и ошибок или имитацию, REER работает «назад», начиная с известных хороших решений, чтобы вычислительно обнаружить скрытый, пошаговый процесс глубокого рассуждения, который мог бы их породить. Используя этот масштабируемый, градиентно-независимый подход, мы создаём и открываем DeepWriting-20K — крупномасштабный набор данных, содержащий 20 000 траекторий глубокого рассуждения для открытых задач. Наша модель DeepWriter-8B, обученная на этих данных, не только превосходит сильные открытые базовые модели, но и демонстрирует результаты, конкурентоспособные, а иногда и превосходящие ведущие проприетарные модели, такие как GPT-4o и Claude 3.5.
Парадигма больших языковых моделей (LLM) всё больше смещается в сторону агентных приложений, где возможности веб-браузинга являются фундаментальными для извлечения информации из различных онлайн-источников. Однако существующие открытые веб-агенты либо демонстрируют ограниченные способности в поиске информации при выполнении сложных задач, либо не имеют прозрачных реализаций. В данной работе мы выявляем, что ключевая проблема заключается в недостатке сложных данных для поиска информации. Чтобы устранить это ограничение, мы представляем WebExplorer: систематический подход к генерации данных, основанный на исследовании с использованием моделей и итеративной эволюции запросов от длинных к коротким. Этот метод создаёт сложные пары "запрос-ответ", требующие многошагового рассуждения и сложной навигации в вебе. Используя наш тщательно отобранный высококачественный набор данных, мы успешно разрабатываем продвинутого веб-агента WebExplorer-8B с помощью контролируемого тонкого настройки, за которым следует обучение с подкреплением. Наша модель поддерживает длину контекста в 128K и до 100 вызовов инструментов, что позволяет решать задачи с длительным горизонтом. На различных бенчмарках для поиска информации WebExplorer-8B демонстрирует наилучшие результаты для своего масштаба. Примечательно, что как модель размером 8B, WebExplorer-8B способна эффективно выполнять поиск в среднем за 16 шагов после обучения с подкреплением, достигая более высокой точности, чем WebSailor-72B на BrowseComp-en/zh, и показывая наилучшие результаты среди моделей до 100B параметров на WebWalkerQA и FRAMES. Помимо этих задач поиска информации, наша модель также демонстрирует сильную обобщающую способность на бенчмарке HLE, несмотря на то, что обучалась только на данных, связанных с вопросами, требующими знаний. Эти результаты подчеркивают наш подход как практический путь к созданию веб-агентов с длительным горизонтом.
Мы представляем TraceRL — фреймворк для обучения с подкреплением, учитывающий траектории, предназначенный для диффузионных языковых моделей (DLMs), который интегрирует предпочтительные траектории вывода в процесс пост-обучения и применим к различным архитектурам. Оснащённый диффузионной моделью ценности, которая повышает стабильность обучения, мы демонстрируем улучшенную производительность в сложных задачах математики и программирования. Кроме того, он также может быть использован для адаптации моделей, специфичных для блоков, к более крупным блокам, что повышает гибкость сэмплирования. Используя TraceRL, мы создаём серию передовых диффузионных языковых моделей, названных TraDo. Хотя TraDo-4B-Instruct меньше, чем AR-модели масштаба 7B, она стабильно превосходит их в сложных задачах математического рассуждения. TraDo-8B-Instruct достигает относительного улучшения точности на 6,1% по сравнению с Qwen2.5-7B-Instruct и на 51,3% по сравнению с Llama3.1-8B-Instruct в тестах на математическое рассуждение. С помощью обучения по учебному плану мы также создаём первую DLM с длинной цепочкой рассуждений (long-CoT), превосходящую Qwen2.5-7B-Instruct на MATH500 с относительным улучшением точности на 18,1%. Для обеспечения воспроизводимости исследований и практического применения мы выпускаем комплексный открытый фреймворк для создания, обучения и развёртывания диффузионных языковых моделей на различных архитектурах. Фреймворк интегрирует ускоренные техники KV-кэша и механизмы вывода как для инференса, так и для обучения с подкреплением, а также включает реализации различных методов тонкой настройки с учителем и RL для задач математики, программирования и общего назначения. Код и модели: https://github.com/Gen-Verse/dLLM-RL.
Появление крупномасштабных базовых моделей для обработки изображений, предварительно обученных на разнообразных естественных изображениях, ознаменовало смену парадигмы в компьютерном зрении. Однако вопрос о том, насколько эффективно передовые базовые модели для обработки изображений переносятся на специализированные области, такие как медицинская визуализация, остается открытым. В данном отчете исследуется, может ли DINOv3 — современный самоконтролируемый трансформер для обработки изображений (ViT), обладающий высокой способностью к задачам плотного предсказания, — напрямую служить мощным унифицированным кодировщиком для задач медицинского зрения без предварительного обучения на специализированных данных. Чтобы ответить на этот вопрос, мы проводим тестирование DINOv3 на типичных задачах медицинского зрения, включая классификацию и сегментацию 2D/3D изображений на широком спектре медицинских модальностей. Мы систематически анализируем его масштабируемость, варьируя размеры модели и разрешения входных изображений. Наши результаты показывают, что DINOv3 демонстрирует впечатляющую производительность и устанавливает новый высокий стандарт. Примечательно, что он даже превосходит специализированные медицинские базовые модели, такие как BiomedCLIP и CT-Net, в нескольких задачах, несмотря на обучение исключительно на естественных изображениях. Однако мы выявляем явные ограничения: характеристики модели ухудшаются в сценариях, требующих глубокой специализации в предметной области, таких как обработка цельных гистологических срезов (WSI), электронная микроскопия (EM) и позитронно-эмиссионная томография (PET). Кроме того, мы наблюдаем, что DINOv3 не всегда следует закону масштабирования в медицинской области: производительность не всегда увеличивается с ростом размера модели или более высоким разрешением признаков, демонстрируя разнообразное поведение при масштабировании в зависимости от задачи. В итоге наша работа устанавливает DINOv3 как сильный базовый стандарт, чьи мощные визуальные признаки могут служить надежной априорной информацией для множества сложных медицинских задач. Это открывает перспективные направления для будущих исследований, такие как использование его признаков для обеспечения согласованности многовидовых данных в 3D-реконструкции.
Визуальное мышление, являющееся краеугольным камнем человеческого интеллекта, охватывает сложные перцептивные и логические процессы, необходимые для решения разнообразных визуальных задач. Хотя достижения в области компьютерного зрения привели к созданию мощных моделей для различных перцептивных задач, их использование для общего визуального мышления остается сложной задачей. Предыдущие работы демонстрируют, что улучшение производительности крупных языковых моделей (LLM) за счет интеграции с моделями зрения через контролируемое дообучение имеет ключевые ограничения, такие как дорогостоящая генерация данных, зависимость от тщательной фильтрации данных и слабая обобщаемость. Для решения этих проблем мы предлагаем ReVPT, который усиливает способности мультимодальных LLM к рассуждению и использованию визуальных инструментов с помощью обучения с подкреплением. Мы представляем новый алгоритм RL, основанный на GRPO, предназначенный для обучения моделей работе с набором из четырех визуальных инструментов. В ходе обширных экспериментов мы показываем, что наш метод достигает наилучших результатов на нескольких бенчмарках с высокой долей восприятия, включая SAT, CV-Bench, BLINK и MMStar, значительно превосходя базовые подходы с контролируемым и текстовым RL дообучением. Примечательно, что наши модели ReVPT-3B и ReVPT-7B превосходят инструктивные модели на 9.03% и 9.44% соответственно на CV-Bench. Наконец, мы предоставляем сообществу новые инсайты по использованию визуальных инструментов на основе RL благодаря обширным исследованиям. Наш код доступен по адресу https://github.com/ls-kelvin/REVPT.
Глубокие исследовательские системы, агентный ИИ, решающий сложные многошаговые задачи за счет координации рассуждений, поиска в открытой сети и пользовательских файлов, а также использования инструментов, движутся в сторону иерархических архитектур с Планировщиком, Координатором и Исполнителями. На практике обучение всей системы сквозным образом остается непрактичным, поэтому большинство работ сосредоточено на обучении одного планировщика, подключенного к базовым инструментам, таким как поиск, просмотр и код. Хотя обучение с учителем (SFT) обеспечивает точность протоколов, оно страдает от имитационных и экспозиционных предубеждений и недостаточно использует обратную связь от среды. Методы согласования предпочтений, такие как DPO, зависят от схем и прокси, являются внеполитичными и слабыми для долгосрочного распределения заслуг и многокритериальных компромиссов. Дополнительным ограничением SFT и DPO является их зависимость от человечески определенных точек принятия решений и поднавыков через проектирование схем и маркированные сравнения. Обучение с подкреплением (RL) согласуется с исследованиями замкнутого цикла и взаимодействия с инструментами, оптимизируя политики на уровне траекторий, обеспечивая исследование, восстановительные поведения и принципиальное распределение заслуг, а также снижает зависимость от таких человеческих априорных знаний и предубеждений оценщиков. Насколько нам известно, этот обзор является первым, посвященным основам RL для глубоких исследовательских систем. Он систематизирует работы после DeepSeek-R1 по трем направлениям: (i) синтез и курирование данных; (ii) методы RL для агентных исследований, охватывающие стабильность, эффективность выборок, обработку длинных контекстов, проектирование наград и заслуг, многокритериальную оптимизацию и мультимодальную интеграцию; и (iii) системы и фреймворки для обучения агентного RL. Мы также рассматриваем архитектуру и координацию агентов, а также оценку и бенчмарки, включая последние задачи QA, VQA, синтеза длинных текстов и взаимодействия с инструментами в предметных областях. Мы выделяем повторяющиеся паттерны, выявляем инфраструктурные узкие места и предлагаем практические рекомендации для обучения устойчивых и прозрачных глубоких исследовательских агентов с использованием RL.
Многозадачное обучение (MTL) часто достигается путем объединения наборов данных перед тонкой настройкой, однако растущая доступность тонко настроенных моделей привела к появлению новых подходов, таких как объединение моделей с помощью арифметики задач. Основной проблемой в этом контексте является интерференция задач, которая усугубляется с увеличением их количества. Мы предлагаем метод, который объединяет модели, обученные на разных задачах, в единую модель, сохраняя высокую производительность по всем задачам. Наш подход использует дивергенцию Йенсена-Шеннона для управления процессом объединения без необходимости в дополнительных размеченных данных и автоматически балансирует важность задач. В отличие от существующих методов, наш подход остается устойчивым с увеличением числа задач и стабильно превосходит предыдущие работы.
Мы представляем Paper2Agent — автоматизированную платформу, преобразующую научные статьи в ИИ-агентов. Paper2Agent превращает результаты исследований из пассивных артефактов в активные системы, способные ускорить их дальнейшее использование, внедрение и открытие. Традиционные научные статьи требуют от читателей значительных усилий для понимания и адаптации кода, данных и методов к их собственным задачам, что создает барьеры для распространения и повторного использования. Paper2Agent решает эту проблему, автоматически преобразуя статью в ИИ-агента, который выступает в роли компетентного научного ассистента. Он систематически анализирует статью и связанный с ней код с помощью нескольких агентов, чтобы построить сервер Model Context Protocol (MCP), а затем итеративно генерирует и запускает тесты для уточнения и повышения надежности полученного MCP. Эти MCP, созданные на основе статей, могут гибко подключаться к чат-агенту (например, Claude Code) для выполнения сложных научных запросов на естественном языке с использованием инструментов и рабочих процессов из оригинальной статьи. Мы демонстрируем эффективность Paper2Agent в создании надежных и функциональных агентов на основе статей через подробные кейс-стади. Paper2Agent создал агента, использующего AlphaGenome для интерпретации геномных вариантов, а также агентов на основе ScanPy и TISSUE для проведения анализа одноклеточной и пространственной транскриптомики. Мы подтверждаем, что эти агенты могут воспроизводить результаты оригинальных статей и корректно выполнять новые пользовательские запросы. Превращая статические статьи в динамичных, интерактивных ИИ-агентов, Paper2Agent представляет новую парадигму для распространения знаний и закладывает основу для совместной экосистемы ИИ-соученых.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют впечатляющие результаты в решении разнообразных визуальных задач, однако их производительность снижается в сложных визуальных средах. Существующие подходы к улучшению требуют дополнительного обучения, полагаются на внешние инструменты сегментации или работают на грубом уровне, упуская из виду внутренние возможности VLMs. Чтобы устранить этот пробел, мы исследуем паттерны внимания в VLMs и обнаруживаем, что: (1) визуальная сложность сильно коррелирует с энтропией внимания, негативно влияя на качество рассуждений; (2) внимание постепенно уточняется от глобального сканирования в поверхностных слоях до сфокусированной конвергенции в более глубоких слоях, причем степень конвергенции определяется визуальной сложностью; (3) Теоретически мы доказываем, что контраст карт внимания между общими запросами и задачами позволяет декомпозировать визуальный сигнал на семантические сигналы и компоненты визуального шума. На основе этих инсайтов мы предлагаем Contrastive Attention Refinement for Visual Enhancement (CARVE) — метод, не требующий обучения, который извлекает визуальные сигналы, релевантные задаче, через контрастирование внимания на уровне пикселей. Многочисленные эксперименты показывают, что CARVE стабильно улучшает производительность, достигая до 75% улучшения на моделях с открытым исходным кодом. Наша работа предоставляет ключевые инсайты о взаимосвязи визуальной сложности и механизмов внимания, предлагая эффективный путь для улучшения визуальных рассуждений с помощью контрастирующего внимания.
Унифицированные мультимодальные модели понимания и генерации в последнее время достигли значительного прогресса в способности генерации изображений, однако сохраняется существенный разрыв в следовании инструкциям и сохранении деталей по сравнению с системами, которые тесно связывают понимание с генерацией, такими как GPT-4o. Вдохновленные недавними достижениями в чередующемся рассуждении, мы исследуем, может ли такое рассуждение дополнительно улучшить генерацию "текст-в-изображение" (T2I). Мы представляем Interleaving Reasoning Generation (IRG) — фреймворк, который чередует текстовое мышление и синтез изображений: модель сначала создает текстовое рассуждение для руководства начальным изображением, затем анализирует результат для уточнения мелких деталей, визуального качества и эстетики, сохраняя при этом семантику. Для эффективного обучения IRG мы предлагаем Interleaving Reasoning Generation Learning (IRGL), который нацелен на две подзадачи: (1) укрепление начального этапа "думай и генерируй" для установления основного содержания и базового качества, и (2) обеспечение высококачественного текстового анализа и точного внедрения этих уточнений в последующее изображение. Мы создали IRGL-300K — набор данных, организованный в шесть декомпозированных режимов обучения, которые совместно охватывают обучение текстовому мышлению и полным траекториям "мышление-изображение". Начиная с унифицированной базовой модели, которая изначально генерирует чередующиеся текстово-изобразительные выходы, наш двухэтапный процесс обучения сначала формирует устойчивое мышление и анализ, а затем эффективно настраивает конвейер IRG на данных полных траекторий "мышление-изображение". Экстенсивные эксперименты демонстрируют состояние искусства, показывая абсолютный прирост на 5-10 баллов на GenEval, WISE, TIIF, GenAI-Bench и OneIG-EN, а также значительные улучшения в визуальном качестве и детализации. Код, веса модели и наборы данных будут опубликованы по адресу: https://github.com/Osilly/Interleaving-Reasoning-Generation.
Мы представляем UniVerse-1 — унифицированную модель, подобную Veo-3, способную одновременно генерировать согласованные аудио и видео. Для повышения эффективности обучения мы избегаем обучения с нуля и вместо этого используем метод объединения экспертов (SoE). Этот подход глубоко интегрирует соответствующие блоки предварительно обученных моделей для генерации видео и музыки, тем самым полностью используя их базовые возможности. Чтобы обеспечить точные аннотации и временное согласование как для фоновых звуков, так и для речи с видеоконтентом, мы разработали онлайн-конвейер аннотаций, который обрабатывает необходимые обучающие данные и генерирует метки в процессе обучения. Эта стратегия позволяет избежать ухудшения производительности, часто вызванного несоответствием текстовых аннотаций. Благодаря синергии этих методов наша модель, после тонкой настройки на примерно 7 600 часах аудио-видео данных, выдает результаты с хорошо согласованными аудиовизуальными элементами для генерации фоновых звуков и сильным согласованием для генерации речи. Для систематической оценки предложенного метода мы представляем Verse-Bench — новый эталонный набор данных. Стремясь продвинуть исследования в области генерации аудио и видео и сократить разрыв в производительности с передовыми моделями, такими как Veo3, мы делаем нашу модель и код общедоступными. Мы надеемся, что этот вклад принесет пользу широкому исследовательскому сообществу. Страница проекта: https://dorniwang.github.io/UniVerse-1/.
Генерация изображений по текстовым описаниям (Text-to-Image, T2I) направлена на синтез изображений на основе текстовых запросов, которые одновременно указывают, что должно быть показано, и подразумевают, что может быть выведено, что соответствует двум ключевым способностям: композиции и логическому рассуждению. Однако с развитием T2I-моделей в области рассуждений, выходящих за рамки композиции, существующие тестовые наборы данных демонстрируют явные ограничения в обеспечении всесторонней оценки как между, так и внутри этих способностей. В то же время эти достижения позволяют моделям обрабатывать более сложные запросы, тогда как текущие тестовые наборы остаются ограниченными низкой плотностью сцен и упрощёнными одношаговыми рассуждениями. Чтобы устранить эти ограничения, мы предлагаем T2I-CoReBench — всеобъемлющий и сложный тестовый набор, который оценивает как композиционные, так и логические способности T2I-моделей. Для обеспечения всесторонности мы структурируем композицию вокруг элементов графа сцен (объект, атрибут и связь), а рассуждения — вокруг философской структуры логического вывода (дедуктивного, индуктивного и абдуктивного), формируя 12-мерную таксономию оценки. Чтобы повысить сложность, основываясь на присущей сложности реальных сценариев, мы создаём каждый запрос с высокой композиционной плотностью для композиции и многошаговыми выводами для рассуждений. Мы также сопровождаем каждый запрос контрольным списком, который содержит отдельные вопросы с ответами "да/нет" для независимой оценки каждого задуманного элемента, что способствует детальной и надёжной оценке. В статистическом плане наш тестовый набор включает 1080 сложных запросов и около 13 500 контрольных вопросов. Эксперименты с 27 современными T2I-моделями показывают, что их способность к композиции всё ещё ограничена в сложных сценариях с высокой плотностью, тогда как способность к рассуждению отстаёт ещё больше, являясь критическим узким местом, при этом все модели испытывают трудности с выводом скрытых элементов из запросов. Страница проекта: https://t2i-corebench.github.io/.
Интеграция крупных языковых моделей (LLM) в автоматизированное доказательство теорем демонстрирует огромный потенциал, однако сталкивается с фундаментальными ограничениями, связанными с масштабированием как обучения с подкреплением (RL) на этапе тренировки, так и вычислительных ресурсов на этапе вывода. В данной статье представлена система BFS-Prover-V2, разработанная для решения этой двойной проблемы масштабирования. Мы предлагаем два ключевых нововведения. Первое — это новый многократный off-policy RL-фреймворк, предназначенный для постоянного улучшения производительности LLM-шагового доказателя на этапе обучения. Этот фреймворк, вдохновленный принципами AlphaZero, использует многоэтапный конвейер экспертной итерации с адаптивной фильтрацией данных на уровне тактик и периодическим переобучением, чтобы преодолеть плато производительности, которые обычно ограничивают долгосрочное RL в агентах на основе LLM. Второе нововведение — это архитектура многозадачного поиска с усилением планировщика, которая масштабирует возможности рассуждений на этапе вывода. Эта архитектура использует общую модель рассуждений в качестве высокоуровневого планировщика для итеративного разложения сложных теорем на последовательность более простых подцелей. Такой иерархический подход существенно сокращает пространство поиска, позволяя команде параллельных агентов-доказывателей эффективно сотрудничать, используя общий кэш доказательств. Мы показываем, что этот двойной подход к масштабированию обеспечивает передовые результаты на установленных бенчмарках формальной математики. BFS-Prover-V2 достигает 95,08% и 41,4% на тестовых наборах MiniF2F и ProofNet соответственно. Хотя результаты продемонстрированы в области формальной математики, представленные в работе методы RL и вывода имеют более широкое применение и могут быть использованы в других областях, требующих многократных рассуждений на длинных горизонтах и сложного поиска.
Оснащение крупных языковых моделей (LLM) сложными, переплетенными способностями к рассуждению и использованию инструментов стало ключевым направлением в исследованиях агентного ИИ, особенно с учетом недавних достижений в моделях, ориентированных на рассуждения («мышление»). Такие способности имеют решающее значение для реализации ряда важных приложений. Одним из таких приложений является глубокое исследование (Deep Research, DR), которое требует обширного поиска и рассуждений на основе множества источников. Наша работа в данной статье сосредоточена на разработке автономных одноагентных моделей для DR, которые минимизируют веб-краулинг и интегрируют инструменты Python. В отличие от мультиагентных систем, где агенты выполняют предопределенные роли и получают указания на каждом шаге статичного рабочего процесса, автономный одноагентный агент динамически определяет следующее действие на основе контекста, без ручного управления. В то время как предыдущие работы предлагали рецепты обучения базовых или настроенных на инструкции LLM, мы сосредоточились на непрерывном обучении с подкреплением (RL) моделей, оптимизированных для рассуждений, чтобы дополнительно улучшить агентные навыки, сохраняя при этом способность к рассуждению. Для достижения этой цели мы предлагаем простой рецепт RL с использованием полностью синтетических данных, который применяем к различным открытым LLM. Наша лучшая модель SFR-DR-20B достигает до 28,7% на бенчмарке Humanity's Last Exam. Кроме того, мы проводим ключевые аналитические эксперименты, чтобы предоставить более глубокое понимание наших методологий.
Масштабирование во время тестирования увеличивает вычислительные затраты на этапе вывода, позволяя моделям генерировать длинные цепочки рассуждений, и демонстрирует высокую производительность во многих областях. Однако в данной работе мы показываем, что этот подход пока неэффективен для задач, требующих глубоких знаний, где критически важны высокая фактическая точность и низкий уровень галлюцинаций. Мы проводим всестороннюю оценку масштабирования во время тестирования с использованием 12 моделей рассуждений на двух тестовых наборах, ориентированных на знания. Наши результаты показывают, что увеличение вычислительных ресурсов на этапе тестирования не всегда приводит к повышению точности и во многих случаях даже увеличивает количество галлюцинаций. Затем мы анализируем, как расширенные рассуждения влияют на поведение галлюцинаций. Мы обнаруживаем, что снижение галлюцинаций часто связано с тем, что модель предпочитает воздержаться от ответа после более длительного размышления, а не с улучшением фактического воспроизведения информации. Напротив, для некоторых моделей более длительные рассуждения стимулируют попытки ответить на ранее оставленные без ответа вопросы, многие из которых приводят к галлюцинациям. Кейс-стади показывают, что расширенные рассуждения могут вызывать склонность к подтверждению своей точки зрения, что приводит к излишне уверенным галлюцинациям. Несмотря на эти ограничения, мы отмечаем, что по сравнению с отсутствием рассуждений, включение мышления остается полезным. Код и данные доступны по адресу https://github.com/XuZhao0/tts-knowledge.
Интеграция крупных языковых моделей (LLM) в различные приложения обусловила необходимость получения структурированных и надежных ответов. Одной из ключевых проблем в системах генерации с использованием извлечения информации (RAG) является обеспечение соответствия выходных данных ожидаемым форматам при минимизации галлюцинаций. В данном исследовании рассматривается роль управляемого декодирования в системах RAG, сравниваются три метода — Outlines, XGrammar и LM Format Enforcer — в различных конфигурациях многошаговых запросов (0-шаговые, 1-шаговые и 2-шаговые). Оценивая показатели успешности, частоту галлюцинаций и качество выходных данных, мы предоставляем инсайты об их производительности и применимости. Наши результаты показывают, как многошаговые взаимодействия влияют на управляемое декодирование, выявляя неожиданные вариации в производительности, которые могут помочь в выборе метода для конкретных задач. Эта работа углубляет понимание генерации структурированных выходных данных в системах RAG, предлагая как теоретические инсайты, так и практические рекомендации для внедрения LLM.
Тёмный юмор в онлайн-мемах представляет уникальные сложности из-за его зависимости от неявных, чувствительных и культурно-контекстуальных сигналов. Для решения проблемы отсутствия ресурсов и методов обнаружения тёмного юмора в мультимодальном контенте мы представляем новый набор данных, состоящий из 4 379 мемов с Reddit, аннотированных по признаку тёмного юмора, целевой категории (гендер, психическое здоровье, насилие, раса, инвалидность и другие) и трёхуровневой оценке интенсивности (лёгкая, умеренная, высокая). На основе этого ресурса мы предлагаем подход, усиленный рассуждениями, который сначала генерирует структурированные объяснения для каждого мема с использованием крупной визуально-языковой модели (VLM). Через механизм "Ролевого саморефлексивного цикла" VLM принимает перспективу автора, чтобы итеративно уточнять свои объяснения, обеспечивая их полноту и согласованность. Затем мы извлекаем текстовые признаки как из транскрипции OCR, так и из самоуточнённых рассуждений с помощью текстового энкодера, а визуальные признаки получаем с использованием трансформера для изображений. Трёхпоточная сеть кросс-рассуждений (TCRNet) объединяет эти три потока — текст, изображение и рассуждения — через попарные механизмы внимания, создавая единое представление для классификации. Экспериментальные результаты показывают, что наш подход превосходит сильные базовые модели в трёх задачах: обнаружение тёмного юмора, идентификация цели и предсказание интенсивности. Набор данных, аннотации и код опубликованы для содействия дальнейшим исследованиям в области понимания мультимодального юмора и модерации контента. Код и набор данных доступны по ссылке: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
Мы представляем Llama-GENBA-10B, трехъязычную базовую модель, направленную на устранение англоцентричной предвзятости в крупных языковых моделях. Построенная на основе Llama 3.1-8B и масштабированная до 10 миллиардов параметров, Llama-GENBA-10B прошла непрерывное предварительное обучение на 164 миллиардах токенов (82 миллиарда английских, 82 миллиарда немецких и 80 миллионов баварских), что позволяет сбалансировать ресурсы и избежать доминирования английского языка. Модель ориентирована на немецкое сообщество NLP и также способствует развитию баварского языка как языка с ограниченными ресурсами. В процессе разработки были решены четыре ключевые задачи: (1) создание многоязычного корпуса, несмотря на ограниченность данных по баварскому языку, (2) разработка унифицированного токенизатора для английского, немецкого и баварского языков, (3) оптимизация архитектуры и гиперпараметров соотношения языков для кросс-лингвистического переноса и (4) создание первой стандартизированной трехъязычной системы оценки путем перевода немецких тестовых наборов на баварский язык. Оценки показывают, что Llama-GENBA-10B демонстрирует высокую кросс-лингвистическую производительность: доработанная версия модели превосходит Apertus-8B-2509 и gemma-2-9b в баварском языке, становясь лучшей моделью в своем классе для этого языка, а также опережает EuroLLM в английском и соответствует его результатам в немецком. Обучение на Cerebras CS-2 продемонстрировало эффективное крупномасштабное многоязычное предварительное обучение с документированным энергопотреблением, предлагая шаблон для инклюзивных базовых моделей, интегрирующих языки с ограниченными ресурсами.
Редактирование изображений на основе перетаскивания стало мощной парадигмой для интуитивного манипулирования изображениями. Однако существующие подходы в основном полагаются на манипуляции в латентном пространстве генеративных моделей, что приводит к ограниченной точности, задержкам в обратной связи и специфическим ограничениям моделей. В связи с этим мы представляем Inpaint4Drag — новый фреймворк, который разбивает редактирование на основе перетаскивания на двунаправленное деформирование в пиксельном пространстве и восстановление изображений. Вдохновленные деформацией упругих объектов в физическом мире, мы рассматриваем области изображения как деформируемые материалы, сохраняющие естественную форму при манипуляциях пользователя. Наш метод обеспечивает предварительный просмотр деформации в реальном времени (0.01 с) и эффективное восстановление изображений (0.3 с) при разрешении 512x512, значительно улучшая опыт взаимодействия по сравнению с существующими методами, требующими нескольких минут на каждое редактирование. Преобразуя входные данные перетаскивания непосредственно в стандартные форматы для восстановления изображений, наш подход служит универсальным адаптером для любой модели восстановления без изменения архитектуры, автоматически наследуя все будущие улучшения в технологии восстановления. Многочисленные эксперименты демонстрируют, что наш метод обеспечивает превосходное визуальное качество и точный контроль, сохраняя при этом производительность в реальном времени. Страница проекта: https://visual-ai.github.io/inpaint4drag/
В данной позиционной статье мы рассматриваем сохраняющийся разрыв между стремительно растущими возможностями ИИ и отстающим прогрессом в области безопасности. Существующие парадигмы делятся на «Сделать ИИ безопасным», которая применяет постфактумное согласование и защитные механизмы, но остается хрупкой и реактивной, и «Создать безопасный ИИ», которая делает акцент на внутренней безопасности, но сталкивается с трудностями в устранении непредвиденных рисков в открытых средах. Мы предлагаем безопасность через коэволюцию как новую формулировку парадигмы «Создать безопасный ИИ», вдохновленную биологическим иммунитетом, где безопасность становится динамическим, состязательным и непрерывным процессом обучения. Для реализации этого видения мы представляем R^2AI — Устойчивый и Живучий ИИ — как практическую структуру, объединяющую устойчивость к известным угрозам и живучесть перед лицом непредвиденных рисков. R^2AI интегрирует быстрые и медленные модели безопасности, состязательное моделирование и верификацию через «аэродинамическую трубу безопасности», а также непрерывные циклы обратной связи, которые направляют коэволюцию безопасности и возможностей. Мы утверждаем, что эта структура предлагает масштабируемый и проактивный путь для поддержания постоянной безопасности в динамичных средах, устраняя как краткосрочные уязвимости, так и долгосрочные экзистенциальные риски по мере продвижения ИИ к ОИИ (общему искусственному интеллекту) и СИИ (сверхинтеллекту).
Модели Vision-Language-Action (VLA) представляют собой перспективное направление для создания универсальных воплощенных агентов, способных быстро адаптироваться к новым задачам, модальностям и окружениям. Однако методы интерпретации и управления VLA значительно уступают классическим робототехническим подходам, основанным на явных моделях кинематики, динамики и управления. Отсутствие механистического понимания является ключевой проблемой для внедрения обученных политик в реальных робототехнических системах, где критически важны надежность и объяснимость. Вдохновленные достижениями в области механистической интерпретируемости больших языковых моделей, мы представляем первую структуру для интерпретации и управления VLA через их внутренние представления, что позволяет напрямую вмешиваться в поведение модели во время вывода. Мы проецируем прямые активации в слоях трансформеров на базис токенов, выявляя разреженные семантические направления — такие как скорость и направление, — которые причинно связаны с выбором действий. Используя эти результаты, мы предлагаем универсальный метод управления активациями, который модулирует поведение в реальном времени без тонкой настройки, сигналов вознаграждения или взаимодействия с окружением. Мы оцениваем этот метод на двух недавно опубликованных моделях VLA, Pi0 и OpenVLA, и демонстрируем управление поведением в симуляции (LIBERO) и на физическом роботе (UR5) без дополнительного обучения. Эта работа показывает, что интерпретируемые компоненты воплощенных моделей VLA могут быть систематически использованы для управления, устанавливая новую парадигму прозрачных и управляемых базовых моделей в робототехнике.
Для повышения эффективности GUI-агентов на различных платформах, таких как смартфоны и компьютеры, перспективным направлением становится гибридный подход, сочетающий гибкие операции с графическим интерфейсом и эффективные сокращения (например, API, глубокие ссылки). Однако фреймворк для систематического тестирования таких гибридных агентов остается недостаточно изученным. Чтобы сделать первый шаг в устранении этого пробела, мы представляем MAS-Bench — эталонный тест, который впервые оценивает гибридных агентов, использующих сочетание GUI и сокращений, с особым акцентом на мобильную сферу. В дополнение к использованию предопределенных сокращений, MAS-Bench оценивает способность агента автономно генерировать сокращения, обнаруживая и создавая повторно используемые, низкозатратные рабочие процессы. Он включает 139 сложных задач в 11 реальных приложениях, базу знаний из 88 предопределенных сокращений (API, глубокие ссылки, RPA-скрипты) и 7 метрик оценки. Задачи разработаны так, чтобы их можно было решить только с помощью операций с графическим интерфейсом, но их выполнение может быть значительно ускорено за счет интеллектуального внедрения сокращений. Эксперименты показывают, что гибридные агенты достигают значительно более высоких показателей успешности и эффективности по сравнению с агентами, использующими только GUI. Этот результат также демонстрирует эффективность нашего метода оценки способности агента генерировать сокращения. MAS-Bench заполняет критический пробел в оценке, предоставляя фундаментальную платформу для будущих достижений в создании более эффективных и надежных интеллектуальных агентов.
Модели, работающие с визуальными и текстовыми данными (Vision-Language Models, VLMs), такие как CLIP, демонстрируют впечатляющие возможности обучения с нулевым и малым количеством примеров в различных приложениях. Однако адаптация этих моделей к новым узкоспециализированным областям остается сложной задачей из-за зависимости от инженерии подсказок (prompt engineering) и высокой стоимости полной тонкой настройки модели. Существующие подходы к адаптации полагаются на дополнительные компоненты, такие как токены подсказок и адаптерные модули, что может ограничивать качество адаптации, дестабилизировать модель и ухудшать богатые знания, полученные в ходе предварительного обучения. В данной работе мы представляем CLIP-SVD — новый многомодальный и параметрически эффективный метод адаптации, который использует сингулярное разложение (Singular Value Decomposition, SVD) для изменения внутреннего пространства параметров CLIP без добавления дополнительных модулей. В частности, мы тонко настраиваем только сингулярные значения матриц параметров CLIP, чтобы масштабировать базисные векторы для адаптации к новой области, сохраняя при этом предварительно обученную модель. Такой подход позволяет улучшить адаптацию, используя всего 0,04% от общего числа параметров модели, и лучше сохранить её способность к обобщению. CLIP-SVD достигает наилучших результатов классификации на 11 наборах данных из естественных и 10 из биомедицинских областей, превосходя предыдущие методы как по точности, так и по обобщающей способности в условиях малого количества примеров. Кроме того, мы используем подход на основе естественного языка для анализа эффективности и динамики адаптации CLIP, что обеспечивает интерпретируемость CLIP-SVD. Код доступен по адресу: https://github.com/HealthX-Lab/CLIP-SVD.
Недостаток высококачественных, логически стройных данных является критическим препятствием для развития математических способностей крупных языковых моделей (LLM). Наша работа решает эту проблему, превращая десятилетия исследований в области автоматического доказательства теорем в масштабируемый механизм генерации данных. Вместо того чтобы полагаться на подверженные ошибкам LLM или сложный синтаксис систем доказательств, таких как Lean и Isabelle, наш фреймворк использует возможности насыщения E-prover на обширной библиотеке аксиом TPTP для создания огромного, гарантированно корректного корпуса теорем. Наш процесс структурирован и прост: насыщение аксиом, фильтрация "интересных" теорем и генерация задач. Без участия LLM в цикле мы исключаем фактические ошибки на этапе построения. Эти чисто символические данные затем преобразуются в три задачи с контролируемой сложностью: проверка следования, выбор предпосылок и восстановление доказательства. Наши эксперименты с нулевым обучением на передовых моделях выявили явную слабость: производительность резко падает на задачах, требующих глубокого, структурного рассуждения. Наш фреймворк предоставляет как инструмент для диагностики этого разрыва, так и масштабируемый источник символических обучающих данных для его устранения. Мы делаем код и данные общедоступными. https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
Регистрация облаков точек LiDAR является фундаментальной задачей для восприятия и навигации роботов. Однако в геометрически вырожденных или узких средах задачи регистрации становятся плохо обусловленными, что приводит к нестабильным решениям и снижению точности. Хотя существующие подходы пытаются справиться с этими проблемами, они не решают ключевую задачу: точное обнаружение, интерпретация и устранение этой плохой обусловленности, что приводит к пропуску обнаружений или искажению решений. В данном исследовании мы представляем DCReg, принципиальную структуру, которая систематически решает проблемы плохо обусловленной регистрации с помощью трех интегрированных инноваций. Во-первых, DCReg обеспечивает надежное обнаружение плохой обусловленности, используя декомпозицию Шура для матрицы Гессе. Этот метод разделяет задачу регистрации на чистые вращательные и трансляционные подпространства, устраняя эффекты связи, которые маскируют вырожденные паттерны в традиционных анализах. Во-вторых, в этих чистых подпространствах мы разрабатываем методы количественной характеристики, которые устанавливают явные соответствия между математическими собственными пространствами и направлениями физического движения, предоставляя полезные сведения о том, какие конкретные движения не имеют ограничений. Наконец, используя это чистое подпространство, мы разрабатываем целевую стратегию смягчения: новый предобуславливатель, который избирательно стабилизирует только выявленные плохо обусловленные направления, сохраняя всю хорошо ограниченную информацию в наблюдаемом пространстве. Это позволяет эффективно и устойчиво оптимизировать с помощью метода предобусловленного сопряженного градиента с одним физически интерпретируемым параметром. Многочисленные эксперименты демонстрируют, что DCReg обеспечивает улучшение точности локализации на 20% - 50% и ускорение в 5-100 раз по сравнению с современными методами в различных средах. Наша реализация будет доступна по адресу https://github.com/JokerJohn/DCReg.