Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Qwen3-Omni, единую мультимодальную модель, которая впервые демонстрирует передовые результаты в обработке текста, изображений, аудио и видео без ухудшения производительности по сравнению с однозадачными аналогами. Qwen3-Omni соответствует производительности однозадачных моделей того же размера в серии Qwen и особенно выделяется в задачах, связанных с аудио. На 36 бенчмарках для аудио и аудиовизуальных данных Qwen3-Omni достигает открытого SOTA на 32 бенчмарках и общего SOTA на 22, превосходя мощные закрытые модели, такие как Gemini-2.5-Pro, Seed-ASR и GPT-4o-Transcribe. Qwen3-Omni использует архитектуру Thinker-Talker MoE, которая объединяет восприятие и генерацию для текста, изображений, аудио и видео, обеспечивая беглый текст и естественную речь в реальном времени. Модель поддерживает текстовое взаимодействие на 119 языках, понимание речи на 19 языках и генерацию речи на 10 языках. Для снижения задержки первого пакета при потоковом синтезе Talker авторегрессивно предсказывает дискретные аудиокодеки с использованием схемы с несколькими кодовыми книгами. Используя репрезентативные возможности этих кодовых книг, мы заменяем вычислительно затратное блочное диффузионное моделирование на легковесную причинную сверточную сеть, что позволяет осуществлять потоковую передачу с первого кадра кодека. В условиях холодного старта Qwen3-Omni достигает теоретической сквозной задержки первого пакета в 234 мс. Для усиления мультимодального мышления мы вводим модель Thinking, которая явно рассуждает над входными данными любой модальности. Поскольку в научном сообществе в настоящее время отсутствует универсальная модель для генерации описаний аудио, мы дообучили Qwen3-Omni-30B-A3B, получив Qwen3-Omni-30B-A3B-Captioner, которая создает детализированные описания с низким уровнем галлюцинаций для произвольных аудиовходов. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking и Qwen3-Omni-30B-A3B-Captioner публично выпущены под лицензией Apache 2.0.
Мы определяем Агентность как возникающую способность ИИ-систем функционировать в качестве автономных агентов, активно выявляющих проблемы, формулирующих гипотезы и реализующих решения через самостоятельное взаимодействие с окружением и инструментами. Эта фундаментальная способность знаменует начало Эпохи Агентности ИИ, движимой критическим сдвигом в индустрии: острой потребностью в ИИ-системах, которые не просто думают, но и работают. В то время как современный ИИ преуспевает в рассуждениях и генерации ответов, отрасли требуют автономных агентов, способных выполнять задачи, управлять инструментами и достигать реальных результатов. По мере того как агентный интеллект становится определяющей характеристикой, отделяющей когнитивные системы от продуктивных работников, эффективное развитие машинной автономии становится первостепенным. Современные подходы предполагают, что больше данных приводит к лучшей агентности, следуя традиционным законам масштабирования из области языкового моделирования. Мы принципиально оспариваем эту парадигму. LIMI (Less Is More for Intelligent Agency) демонстрирует, что агентность следует радикально иным принципам развития. Благодаря стратегической фокусировке на совместной разработке программного обеспечения и научно-исследовательских процессах, мы показываем, что сложный агентный интеллект может возникать из минимальных, но стратегически отобранных демонстраций автономного поведения. Используя всего 78 тщательно разработанных обучающих примеров, LIMI достигает 73,5% на комплексных тестах агентности, значительно превосходя современные модели: Kimi-K2-Instruct (24,1%), DeepSeek-V3.1 (11,9%), Qwen3-235B-A22B-Instruct (27,5%) и GLM-4.5 (45,1%). Наиболее поразительно, что LIMI демонстрирует улучшение на 53,7% по сравнению с моделями, обученными на 10 000 примеров, достигая превосходного агентного интеллекта при использовании в 128 раз меньшего количества данных. Наши результаты устанавливают Принцип Эффективности Агентности: машинная автономия возникает не из изобилия данных, а из стратегического отбора высококачественных демонстраций агентного поведения.
Недавние достижения в области вставки видео на основе диффузионных моделей впечатляют. Однако существующие методы полагаются на сложные управляющие сигналы, но сталкиваются с проблемами согласованности объектов, что ограничивает их практическую применимость. В данной статье мы сосредотачиваемся на задаче вставки видео без использования масок и стремимся решить три ключевые проблемы: недостаток данных, баланс между объектом и сценой, а также гармонизацию вставки. Для решения проблемы недостатка данных мы предлагаем новый конвейер данных InsertPipe, который автоматически создает разнообразные перекрестные пары данных. На основе нашего конвейера данных мы разрабатываем OmniInsert, новую унифицированную структуру для вставки видео без масок с использованием как одного, так и нескольких эталонных объектов. В частности, для поддержания баланса между объектом и сценой мы вводим простой, но эффективный механизм Condition-Specific Feature Injection, который четко внедряет условия из нескольких источников, и предлагаем новую стратегию Progressive Training, позволяющую модели сбалансировать внедрение признаков из объектов и исходного видео. Одновременно мы разрабатываем Subject-Focused Loss для улучшения детализированного внешнего вида объектов. Для дальнейшего повышения гармонизации вставки мы предлагаем методологию Insertive Preference Optimization, которая оптимизирует модель, имитируя человеческие предпочтения, и включаем модуль Context-Aware Rephraser на этапе ссылки для бесшовной интеграции объекта в исходные сцены. Для решения проблемы отсутствия эталонного набора данных в данной области мы представляем InsertBench, всеобъемлющий эталонный набор, включающий разнообразные сцены с тщательно отобранными объектами. Оценка на InsertBench показывает, что OmniInsert превосходит современные коммерческие решения с закрытым исходным кодом. Код будет опубликован.
Мы представляем Meta Agents Research Environments (ARE) — исследовательскую платформу для масштабируемого создания сред, интеграции синтетических или реальных приложений и выполнения агентских оркестраций. ARE предоставляет простые абстракции для построения сложных и разнообразных сред, каждая из которых имеет свои собственные правила, инструменты, контент и верификаторы, что помогает сократить разрыв между разработкой моделей и их развертыванием в реальном мире. Мы также предлагаем Gaia2 — бенчмарк, созданный в ARE и предназначенный для измерения общих способностей агентов. Помимо поиска и выполнения, Gaia2 требует от агентов умения справляться с неоднозначностью и шумом, адаптироваться к динамическим средам, сотрудничать с другими агентами и работать в условиях временных ограничений. В отличие от предыдущих бенчмарков, Gaia2 работает асинхронно, выявляя новые режимы сбоев, которые не видны в статических условиях. Наши эксперименты показывают, что ни одна система не доминирует на всем спектре интеллекта: более сильные рассуждения часто достигаются за счет эффективности, а кривые масштабирования бюджета выходят на плато, что подчеркивает необходимость новых архитектур и адаптивных стратегий вычислений. Возможно, что более важно, абстракции ARE позволяют непрерывно расширять Gaia2 на другие среды, давая сообществу возможность быстро создавать новые бенчмарки, адаптированные к их областям. Во второй половине развития ИИ прогресс все больше зависит от определения значимых задач и надежных оценок, чтобы продвигать передовые возможности вперед.
Несмотря на растущий интерес к воспроизведению масштабируемого успеха крупных языковых моделей (LLM) в промышленных поисковых и рекомендательных системах, большинство существующих промышленных усилий ограничиваются внедрением архитектур Transformer, которые приносят лишь инкрементальные улучшения по сравнению с мощными моделями рекомендаций на основе глубокого обучения (DLRM). С точки зрения фундаментальных принципов, прорывы LLM обусловлены не только их архитектурой, но и двумя дополнительными механизмами: контекстной инженерией, которая обогащает исходные входные запросы контекстными подсказками для более эффективного раскрытия возможностей модели, и многошаговым рассуждением, которое итеративно уточняет выходные данные модели через промежуточные пути рассуждений. Однако эти два механизма и их потенциал для достижения существенных улучшений остаются в значительной степени неисследованными в промышленных системах ранжирования. В данной статье мы предлагаем OnePiece, унифицированную структуру, которая бесшовно интегрирует контекстную инженерию и рассуждения в стиле LLM как в модели поиска, так и в модели ранжирования промышленных каскадных конвейеров. OnePiece построена на чистой архитектуре Transformer и дополнительно вводит три ключевых инновации: (1) структурированная контекстная инженерия, которая обогащает историю взаимодействий сигналами предпочтений и сценариев и объединяет их в структурированную токенизированную входную последовательность как для поиска, так и для ранжирования; (2) блочное латентное рассуждение, которое оснащает модель многошаговым уточнением представлений и масштабирует пропускную способность рассуждений через размер блока; (3) прогрессивное многозадачное обучение, которое использует цепочки пользовательских отзывов для эффективного контроля шагов рассуждений во время обучения. OnePiece была внедрена в основной персонализированный поисковый сценарий Shopee и демонстрирует стабильные улучшения в различных ключевых бизнес-метриках, включая более чем +2% GMV/UU и увеличение рекламных доходов на +2,90%.
В данной статье представлен TempSamp-R1 — новый фреймворк для тонкой настройки с использованием обучения с подкреплением, предназначенный для повышения эффективности адаптации мультимодальных больших языковых моделей (MLLMs) к задачам временной локализации в видео. Мы показываем, что существующие методы обучения с подкреплением, такие как Group Relative Policy Optimization (GRPO), полагаются на on-policy сэмплирование для обновления политик. Однако в задачах с большими временными пространствами поиска эта стратегия становится неэффективной и ограниченной в производительности, так как часто не позволяет находить временно точные решения. Для устранения этого ограничения TempSamp-R1 использует аннотации ground-truth в качестве off-policy супервизии, обеспечивая временно точное руководство и эффективно компенсируя разреженность и несоответствия в on-policy решениях. Для дальнейшей стабилизации обучения и снижения дисперсии в обновлениях на основе наград TempSamp-R1 предлагает нелинейный метод вычисления мягкого преимущества, который динамически преобразует обратную связь по наградам с помощью асимметричного преобразования. Используя гибридную парадигму обучения Chain-of-Thought (CoT), TempSamp-R1 оптимизирует единую модель для поддержки как CoT, так и не-CoT режимов вывода, что позволяет эффективно обрабатывать запросы с различной сложностью рассуждений. Экспериментальные результаты демонстрируют, что TempSamp-R1 превосходит базовые методы на основе GRPO, устанавливая новые рекорды на эталонных наборах данных: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%) и QVHighlights (mAP: 30.0%, +3.0%). Кроме того, TempSamp-R1 демонстрирует устойчивые возможности обобщения в условиях ограниченных данных. Код: https://github.com/HVision-NKU/TempSamp-R1.
В данной статье мы представляем VideoFrom3D — новый фреймворк для синтеза высококачественных видеороликов 3D-сцен на основе грубой геометрии, траектории камеры и эталонного изображения. Наш подход упрощает рабочий процесс 3D-графического дизайна, обеспечивая гибкость в исследовании дизайна и быструю подготовку конечных материалов. Простой подход к синтезу видео из грубой геометрии мог бы использовать видео-диффузионную модель, учитывающую геометрическую структуру. Однако существующие видео-диффузионные модели сталкиваются с трудностями при генерации высококачественных результатов для сложных сцен из-за сложности совместного моделирования визуального качества, движения и временной согласованности. Для решения этой проблемы мы предлагаем генеративный фреймворк, который объединяет преимущества изображений и видео-диффузионных моделей. В частности, наш фреймворк состоит из модуля Sparse Anchor-view Generation (SAG) и модуля Geometry-guided Generative Inbetweening (GGI). Модуль SAG генерирует высококачественные, согласованные по видам опорные кадры с использованием изображений-диффузионной модели, поддерживаемой Sparse Appearance-guided Sampling. На основе этих опорных кадров модуль GGI точно интерполирует промежуточные кадры с помощью видео-диффузионной модели, улучшенной за счет управления камерой на основе потоков и структурного руководства. Важно отметить, что оба модуля работают без использования парных наборов данных 3D-моделей сцен и натуральных изображений, которые крайне сложно получить. Комплексные эксперименты показывают, что наш метод создает высококачественные, стилистически согласованные видеоролики сцен в разнообразных и сложных сценариях, превосходя простые и расширенные базовые подходы.
Онлайн-обучение с подкреплением (RL) играет ключевую роль в пост-обучении языковых моделей, однако его применение к диффузионным моделям остается сложной задачей из-за невычислимых правдоподобий. Недавние работы дискретизируют процесс обратной выборки для обучения в стиле GRPO, но они наследуют фундаментальные недостатки, включая ограничения на решатели, несоответствие между прямым и обратным процессами и сложную интеграцию с классификатор-фри гидом (CFG). Мы представляем Diffusion Negative-aware FineTuning (DiffusionNFT), новую парадигму онлайн RL, которая оптимизирует диффузионные модели непосредственно на прямом процессе через сопоставление потоков. DiffusionNFT противопоставляет положительные и отрицательные генерации, чтобы определить неявное направление улучшения политики, естественным образом интегрируя сигналы подкрепления в задачу обучения с учителем. Такая формулировка позволяет обучаться с использованием произвольных черных ящиков-решателей, устраняет необходимость оценки правдоподобия и требует только чистых изображений вместо траекторий выборки для оптимизации политики. DiffusionNFT до 25 раз эффективнее, чем FlowGRPO, в прямых сравнениях, при этом не требует CFG. Например, DiffusionNFT улучшает оценку GenEval с 0.24 до 0.98 за 1 тыс. шагов, тогда как FlowGRPO достигает 0.95 за более чем 5 тыс. шагов с дополнительным использованием CFG. Используя несколько моделей вознаграждения, DiffusionNFT значительно повышает производительность SD3.5-Medium во всех протестированных бенчмарках.
Мы представляем SWE-Bench Pro — значительно более сложный бенчмарк, который основывается на лучших практиках SWE-BENCH [25], но специально разработан для охвата реалистичных, сложных, корпоративных задач, выходящих за рамки возможностей SWE-BENCH. SWE-BENCH PRO содержит 1 865 задач, собранных из 41 активно поддерживаемого репозитория, охватывающих бизнес-приложения, B2B-сервисы и инструменты для разработчиков. Бенчмарк разделен на публичный набор с открытым доступом к задачам из 11 репозиториев, закрытый набор из 12 репозиториев и коммерческий набор из 18 проприетарных репозиториев, с которыми у нас заключены официальные партнерские соглашения с начинающими стартапами. Задачи из закрытого и коммерческого наборов не доступны публично, но мы публикуем результаты по коммерческому набору. Наш бенчмарк включает долгосрочные задачи, выполнение которых может занимать от нескольких часов до нескольких дней для профессионального инженера-программиста, часто требующие изменений в нескольких файлах и значительных модификаций кода. Все задачи проверены людьми и дополнены достаточным контекстом для обеспечения их разрешимости. В нашей оценке широко используемых моделей генерации кода, проведенной в рамках единой структуры, мы наблюдаем, что их производительность на SWE-Bench PRO остается ниже 25% (Pass@1), при этом GPT-5 достигает наивысшего на данный момент результата в 23,3%. Для лучшего понимания этих ограничений мы группируем наблюдаемые режимы сбоев в собранных траекториях агентов, чтобы более четко охарактеризовать типичные ошибки современных моделей. В целом, SWE-BENCH PRO предоставляет устойчивую к загрязнению тестовую среду, которая более точно отражает сложность и разнообразие реальной разработки программного обеспечения, продвигая стремление к созданию по-настоящему автономных агентов для профессиональной инженерной разработки.
Последние достижения в области больших языковых моделей (LLM) позволили увеличить длину контекста, что дает ассистентам возможность поддерживать длинные истории для создания связных и персонализированных ответов. Однако эта способность зависит от кэширования ключей и значений (Key-Value, KV), объем памяти которого растет линейно с увеличением длины диалога и быстро становится доминирующим при строгих ограничениях ресурсов. Активное направление исследований, направленное на снижение этой нагрузки, — это сжатие KV-кэша, которое стремится ограничить размер кэша, сохраняя при этом точность. Однако существующие методы сталкиваются с двумя основными ограничениями: (i) удаление записей после полного предзаполнения контекста приводит к неограниченному пиковому использованию памяти, и (ii) удаление, зависящее от запроса, сужает кэш до одного запроса, что приводит к снижению точности в многоходовых диалогах. Мы представляем EpiCache, фреймворк для управления KV-кэшем без обучения, предназначенный для длинных диалоговых вопросов и ответов (LongConvQA) при фиксированных ограничениях памяти. EpiCache ограничивает рост кэша за счет блочного предзаполнения и сохраняет контекст, релевантный теме, с помощью эпизодического сжатия KV, которое группирует историю диалога в связные эпизоды и применяет удаление кэша, специфичное для каждого эпизода. Мы также разработали адаптивную стратегию распределения бюджета по слоям, которая оценивает чувствительность каждого слоя к удалению и распределяет бюджет памяти между слоями соответствующим образом. На трех бенчмарках LongConvQA EpiCache повышает точность до 40% по сравнению с последними базовыми методами, сохраняет почти полную точность KV при сжатии в 4-6 раз и снижает задержку и использование памяти до 2,4 и 3,5 раз соответственно, что позволяет эффективно взаимодействовать в многоходовых диалогах при строгих ограничениях ресурсов.
Последние достижения в области обучения с подкреплением (RL) улучшили способности к рассуждению у крупных языковых моделей (LLM), однако их влияние на мультимодальные языковые модели (MLLM) остается ограниченным. Особенно в задачах, требующих интенсивного использования зрения, таких как геометрическое рассуждение, MLLM часто генерируют ошибочные выводы, что приводит к неточным результатам. Мы связываем это с перцептивным барьером в MLLM, который ограничивает преимущества обучения рассуждению. Для количественной оценки этого явления мы разработали эталонный набор данных Geo-Perception Question-Answering (GeoPQA), ориентированный на базовые геометрические концепции и пространственные отношения. Эксперименты на GeoPQA выявили значительные недостатки MLLM в визуальном восприятии, которые ограничивают сигналы вознаграждения RL для эффективного обучения. Для преодоления этого барьера мы предлагаем двухэтапную структуру обучения RL, сначала улучшая визуальное восприятие геометрических структур, а затем развивая способности к рассуждению. Примененная к модели Qwen2.5-VL-3B-Instruct, наша двухэтапная методика улучшает геометрическое рассуждение на 9,7% и решение геометрических задач на 9,1% по сравнению с подходом прямого обучения рассуждению. Наш метод также обобщается на другие области, требующие интенсивного использования зрения, такие как понимание графиков, подчеркивая важность перцептивной основы для эффективного рассуждения в MLLM.
В данной статье представлен ByteWrist — новый высокоэластичный и антропоморфный параллельный запястный механизм для роботизированного манипулирования. ByteWrist устраняет ключевые ограничения существующих последовательных и параллельных запястий при работе в узких пространствах благодаря компактному трехступенчатому параллельному приводному механизму, интегрированному с дугообразными концевыми звеньями. Конструкция обеспечивает точное движение по осям RPY (крен-тангаж-рыскание), сохраняя исключительную компактность, что делает её особенно подходящей для сложных неструктурированных сред, таких как домашнее обслуживание, медицинская помощь и прецизионная сборка. Ключевые инновации включают: (1) вложенные трехступенчатые моторные звенья, которые минимизируют объем, обеспечивая независимое управление по нескольким степеням свободы, (2) дугообразные концевые звенья, оптимизирующие передачу усилия и расширяющие диапазон движения, и (3) центральную опорную сферу, функционирующую как сферический шарнир, которая повышает структурную жесткость без ущерба для гибкости. Кроме того, представлено всестороннее кинематическое моделирование, включая прямую и обратную кинематику, а также численное решение Якобиана для точного управления. Экспериментально подтверждено, что ByteWrist демонстрирует высокую производительность в маневренности в узких пространствах и задачах кооперативного манипулирования двумя руками, превосходя системы на базе Kinova. Результаты показывают значительное улучшение компактности, эффективности и жесткости по сравнению с традиционными конструкциями, что делает ByteWrist перспективным решением для роботизированного манипулирования следующего поколения в ограниченных пространствах.
Мы проводим умеренно масштабную, в некоторой степени свободную от загрязнения, оценку современных моделей с большими возможностями рассуждения (LRMs) с некоторыми предварительными результатами. Мы также выпускаем ROME, наш эталонный тест для оценки моделей, работающих с визуальными и языковыми данными, предназначенный для проверки способности рассуждать на основе визуальных подсказок. Мы прилагаем ссылки на эталонный тест, данные для оценки и другие обновления на этом сайте: https://flageval-baai.github.io/LRM-Eval/.
Крупные языковые модели (LLM) приобретают значительные знания о мире в процессе предварительного обучения, которые затем уточняются с помощью методов пост-обучения, таких как контролируемое тонкое настройка (SFT). Однако влияние SFT на знания модели остается недостаточно изученным, что ограничивает нашу способность контролировать изменения знаний в тонко настроенных моделях. Чтобы устранить этот пробел, мы оцениваем производительность в задаче закрытого книжного ответа на вопросы (CBQA) для пяти моделей из семейств LLaMA-2 и LLaMA-3. Удивительно, но модели, настроенные на 1920 образцах, показывают результаты до 14% хуже, чем те, которые были настроены всего на 240 образцах. Кроме того, изменение уровня владения знаниями в данных для тонкой настройки приводит к колебаниям производительности более чем на 12%. Чтобы исследовать эти эффекты, мы анализируем поведение модели как на уровне токенов, так и на уровне параметров. Наш анализ показывает, что до 90% обновлений параметров во время SFT не способствуют улучшению знаний. Восстановление этих обновлений может улучшить производительность в задаче CBQA в зависимости от характеристик данных для тонкой настройки. Эти выводы предлагают практические рекомендации для разработки стратегий тонкой настройки, которые более эффективно укрепляют знания модели.
Разработчики крупных языковых моделей (LLM) стремятся к тому, чтобы их модели были честными, полезными и безопасными. Однако при столкновении с вредоносными запросами модели обучаются отказывать, жертвуя полезностью. Мы показываем, что передовые LLM могут развивать предпочтение к нечестности как новой стратегии, даже когда доступны другие варианты. Затронутые модели отвечают на вредоносные запросы выводами, которые звучат вредоносно, но на практике являются тонко некорректными или безвредными. Такое поведение проявляется с трудно предсказуемыми вариациями даже внутри моделей одного семейства. Мы не находим явной причины склонности к обману, но показываем, что более способные модели лучше справляются с выполнением этой стратегии. Стратегическая нечестность уже оказывает практическое влияние на оценки безопасности, так как мы демонстрируем, что нечестные ответы обманывают все тестируемые нами мониторы, основанные на выводах, используемые для обнаружения взломов, что делает результаты бенчмарков ненадежными. Кроме того, стратегическая нечестность может действовать как ловушка для злоумышленников, заметно затрудняя предыдущие атаки на взлом. Хотя мониторы выводов не справляются, мы показываем, что линейные зонды на внутренних активациях могут быть использованы для надежного обнаружения стратегической нечестности. Мы проверяем зонды на наборах данных с проверяемыми результатами и используем их признаки в качестве векторов управления. В целом, мы рассматриваем стратегическую нечестность как конкретный пример более широкой проблемы, заключающейся в том, что согласование LLM трудно контролировать, особенно когда полезность и безопасность вступают в конфликт.
Спрос на эффективное развертывание крупных языковых моделей (LLM) стимулировал интерес к квантованию, которое снижает затраты на вывод, и параметрически-эффективной тонкой настройке (PEFT), которая уменьшает накладные расходы на обучение. Это послужило толчком к разработке PEFT с учетом квантования для создания точных, но эффективных квантованных моделей. В этом контексте снижение ошибки квантования перед тонкой настройкой имеет решающее значение для достижения высокой точности модели. Однако существующие методы, основанные на адаптации с низким рангом, страдают от ограниченной репрезентативной способности. Недавно предложенные адаптеры на основе преобразований, связанных с преобразованием Фурье (FT), обладают большей репрезентативной мощностью, чем адаптеры с низким рангом, но их прямое внедрение в квантованные модели часто приводит к неэффективному снижению ошибок и увеличению вычислительных затрат. Чтобы преодолеть эти ограничения, мы предлагаем QWHA — метод, который интегрирует адаптеры на основе FT в квантованные модели, используя преобразование Уолша-Адамара (WHT) в качестве ядра преобразования, а также новую схему инициализации адаптеров, включающую адаптивный выбор параметров и уточнение значений. Мы демонстрируем, что QWHA эффективно снижает ошибки квантования, облегчая тонкую настройку, а его конструкция существенно снижает вычислительные затраты. Экспериментальные результаты показывают, что QWHA стабильно превосходит базовые методы по точности при низкобитном квантовании и достигает значительного ускорения обучения по сравнению с существующими адаптерами на основе FT. Код доступен по адресу https://github.com/vantaa89/qwha.
Графические пользовательские интерфейсы (GUI) являются основным средством взаимодействия человека с компьютером, однако автоматизация взаимодействий с GUI остается сложной задачей из-за сложности визуальных элементов, динамичности среды и необходимости многошагового принятия решений. Существующие методы, основанные на моделях, объединяющих зрение и язык (VLMs), часто страдают от ограниченного разрешения, несоответствия доменов и недостаточной способности к последовательному принятию решений. Для решения этих проблем мы предлагаем Mano — надежного агента для работы с GUI, построенного на основе мультимодальной базовой модели, предварительно обученной на обширных данных из веб- и компьютерных систем. Наш подход включает в себя новую симулированную среду для генерации высококачественных данных, трехэтапный процесс обучения (тонкая настройка с учителем, оффлайн-обучение с подкреплением и онлайн-обучение с подкреплением) и модуль проверки для восстановления после ошибок. Mano демонстрирует передовые результаты на нескольких тестовых наборах для GUI, включая Mind2Web и OSWorld, достигая значительного улучшения в показателях успешности и точности операций. Наша работа предоставляет новые идеи для эффективного интеграции обучения с подкреплением с VLMs в практическом развертывании агентов для GUI, подчеркивая важность доменно-специфичных данных, итеративного обучения и целостного проектирования системы вознаграждений.
Мы представляем Synthetic Bootstrapped Pretraining (SBP) — процедуру предварительного обучения языковой модели (LM), которая сначала изучает модель отношений между документами из набора данных для предобучения, а затем использует её для синтеза нового обширного корпуса для совместного обучения. В то время как стандартное предобучение учит LM изучать причинно-следственные связи между токенами в пределах одного документа, оно не предназначено для эффективного моделирования богатых, обучаемых междокументных корреляций, которые потенциально могут привести к улучшению производительности. Мы проверяем SBP, разрабатывая вычислительно сопоставимую настройку предобучения и предобучаем модель с 3 миллиардами параметров на до 1 триллиона токенов с нуля. Мы обнаруживаем, что SBP последовательно улучшает результаты по сравнению с сильным базовым уровнем повторения и обеспечивает значительную долю улучшения производительности, достижимого с помощью верхней границы оракула, имеющего доступ к 20-кратно большему количеству уникальных данных. Качественный анализ показывает, что синтезированные документы выходят за рамки простого перефразирования — SBP сначала абстрагирует основную концепцию из исходного материала, а затем создаёт новое повествование на её основе. Помимо сильной эмпирической производительности, SBP допускает естественную байесовскую интерпретацию: синтезатор неявно учится абстрагировать скрытые концепции, общие для связанных документов.
Универсальные мультимодальные модели эмбеддингов достигли значительных успехов в захвате семантической релевантности между запросами и кандидатами. Однако современные методы либо сжимают запросы и кандидаты в единый вектор, что потенциально ограничивает выразительность для детализированной информации, либо создают слишком много векторов, что делает многомерный поиск непомерно дорогим. В данной работе мы представляем MetaEmbed — новый фреймворк для мультимодального поиска, который переосмысливает построение и взаимодействие с мультимодальными эмбеддингами в масштабе. Во время обучения к входной последовательности добавляется фиксированное количество обучаемых Meta Tokens. На этапе тестирования их контекстуализированные представления из последнего слоя служат компактными, но выразительными многомерными эмбеддингами. Благодаря предложенному обучению Matryoshka Multi-Vector Retrieval, MetaEmbed учится организовывать информацию по уровню детализации в нескольких векторах. В результате мы обеспечиваем масштабируемость на этапе тестирования в мультимодальном поиске, где пользователи могут балансировать между качеством поиска и требованиями к эффективности, выбирая количество токенов, используемых для индексации и взаимодействий при поиске. Обширные оценки на Massive Multimodal Embedding Benchmark (MMEB) и Visual Document Retrieval Benchmark (ViDoRe) подтверждают, что MetaEmbed достигает передовых показателей в поиске, одновременно демонстрируя устойчивое масштабирование для моделей с 32 миллиардами параметров.
Редактирование объектов в видео без обучения направлено на достижение точного манипулирования на уровне объектов, включая вставку, замену и удаление объектов. Однако оно сталкивается с существенными трудностями в сохранении точности и временной согласованности. Существующие методы, часто разработанные для архитектур U-Net, страдают от двух основных ограничений: неточной инверсии из-за решателей первого порядка и контекстных конфликтов, вызванных грубой "жесткой" заменой признаков. Эти проблемы становятся более сложными в Diffusion Transformers (DiTs), где неприменимость эвристик выбора слоев затрудняет эффективное управление. Для решения этих ограничений мы представляем ContextFlow, новый фреймворк для редактирования объектов в видео на основе DiT, не требующий обучения. В частности, мы сначала используем решатель высокого порядка Rectified Flow для создания надежной основы редактирования. Основой нашего фреймворка является Adaptive Context Enrichment (для определения того, что редактировать), механизм, который устраняет контекстные конфликты. Вместо замены признаков он обогащает контекст self-attention путем объединения пар Key-Value из параллельных путей реконструкции и редактирования, позволяя модели динамически объединять информацию. Кроме того, для определения того, где применять это обогащение (для указания того, где редактировать), мы предлагаем систематический, основанный на данных анализ для выявления важных слоев, специфичных для задачи. На основе новой метрики Guidance Responsiveness Metric наш метод определяет наиболее влияющие блоки DiT для различных задач (например, вставка, замена), обеспечивая целенаправленное и высокоэффективное управление. Многочисленные эксперименты показывают, что ContextFlow значительно превосходит существующие методы без обучения и даже опережает несколько современных подходов, требующих обучения, обеспечивая временно согласованные и высокоточные результаты.
Широкое внедрение крупных языковых моделей (LLM) сдерживается их склонностью к галлюцинациям, то есть генерации правдоподобной, но фактически неверной информации. Хотя системы генерации с использованием извлечения знаний (RAG) пытаются решить эту проблему, основывая ответы на внешних источниках, галлюцинации остаются устойчивой проблемой, особенно для морфологически сложных языков с ограниченными ресурсами, таких как турецкий. В данной статье представлен Turk-LettuceDetect — первый набор моделей для обнаружения галлюцинаций, специально разработанных для RAG-приложений на турецком языке. Основываясь на фреймворке LettuceDetect, мы формулируем задачу обнаружения галлюцинаций как классификацию на уровне токенов и дообучаем три различные архитектуры энкодеров: ModernBERT, адаптированный для турецкого языка, TurkEmbed4STS и многоязычный EuroBERT. Эти модели были обучены на машинно-переведенной версии набора данных RAGTruth, содержащего 17 790 примеров для задач ответов на вопросы, генерации текста из данных и суммаризации. Наши экспериментальные результаты показывают, что модель на основе ModernBERT достигает F1-меры 0,7266 на полном тестовом наборе, демонстрируя особенно высокую производительность на структурированных задачах. Модели сохраняют вычислительную эффективность, поддерживая длинные контексты до 8 192 токенов, что делает их пригодными для использования в реальном времени. Сравнительный анализ показывает, что, хотя современные LLM демонстрируют высокую полноту, они страдают от низкой точности из-за чрезмерной генерации галлюцинированного контента, что подчеркивает необходимость специализированных механизмов обнаружения. Публикуя наши модели и переведенный набор данных, эта работа устраняет критический пробел в многоязычной обработке естественного языка и закладывает основу для разработки более надежных и доверенных ИИ-приложений для турецкого и других языков.
Механизм кросс-внимания является ключевым элементом архитектур "кодировщик-декодировщик", широко используемых во многих областях, включая обработку речи в текст (S2T). Его оценки были адаптированы для различных приложений, таких как оценка временных меток и выравнивание аудио и текста, в предположении, что они отражают зависимости между представлением входной речи и сгенерированным текстом. Хотя объяснительная природа механизмов внимания широко обсуждается в литературе по NLP, это предположение остается в значительной степени неисследованным в области обработки речи. Чтобы восполнить этот пробел, мы оцениваем объяснительную силу кросс-внимания в моделях S2T, сравнивая его оценки с картами значимости входных данных, полученными на основе атрибуции признаков. Наш анализ охватывает одноязычные и многоязычные, одно- и многозадачные модели различных масштабов и показывает, что оценки внимания умеренно или сильно согласуются с объяснениями, основанными на значимости, особенно при агрегировании по головам и слоям. Однако он также показывает, что кросс-внимание охватывает лишь около 50% значимости входных данных и в лучшем случае лишь частично отражает то, как декодер учитывает представления кодировщика, объясняя только 52-75% значимости. Эти результаты выявляют фундаментальные ограничения в интерпретации кросс-внимания как объяснительного прокси, предполагая, что оно предлагает информативный, но неполный взгляд на факторы, влияющие на предсказания в моделях S2T.
Масштабирование моделей рекомендаций в крупные рекомендательные системы стало одной из наиболее обсуждаемых тем. Последние исследования сосредоточены на компонентах, выходящих за рамки масштабирования размерности эмбеддингов, поскольку считается, что увеличение размерности эмбеддингов может привести к ухудшению производительности. Хотя уже были сделаны некоторые первоначальные наблюдения относительно эмбеддингов, основная причина их неспособности к масштабированию остается неясной. Более того, вопрос о том, происходит ли ухудшение производительности в различных типах моделей и наборах данных, остается малоизученным. Влияние размерности эмбеддингов на производительность мы исследуем в рамках масштабных экспериментов на 10 наборах данных с различными уровнями разреженности и масштабами, используя 4 классические архитектуры. Мы неожиданно обнаруживаем два новых явления: двойной пик и логарифмическую зависимость. В первом случае, по мере увеличения размерности эмбеддингов, производительность сначала улучшается, затем ухудшается, снова возрастает и в конечном итоге падает. Во втором случае наблюдается идеальная логарифмическая кривая. Наш вклад заключается в трех аспектах. Во-первых, мы обнаруживаем два новых явления при масштабировании моделей коллаборативной фильтрации. Во-вторых, мы получаем понимание причин возникновения явления двойного пика. В-третьих, мы теоретически анализируем устойчивость моделей коллаборативной фильтрации к шуму, и результаты совпадают с эмпирическими наблюдениями.
Последние достижения в области крупных мультимодальных моделей (LMM) продемонстрировали их впечатляющий успех в качестве универсальных мультимодальных ассистентов, с особым акцентом на целостное понимание изображений, видео и текста. В то же время меньше внимания уделялось масштабированию возможностей для детального понимания на уровне пикселей, где от моделей ожидается достижение пиксельной согласованности между визуальными сигналами и языковой семантикой. Некоторые предыдущие исследования применяли LMM к связанным задачам, таким как создание описаний на уровне регионов и сегментация по референсным выражениям. Однако эти модели ограничены выполнением либо задач референции, либо сегментации по отдельности и не способны интегрировать эти детальные возможности восприятия в визуальное рассуждение. Чтобы устранить этот пробел, мы предлагаем UniPixel — крупную мультимодальную модель, способную гибко воспринимать визуальные подсказки и генерировать ответы, основанные на масках. Наша модель выделяется благодаря бесшовной интеграции пиксельного восприятия с общими возможностями визуального понимания. В частности, UniPixel обрабатывает визуальные подсказки и генерирует соответствующие маски по запросу, а затем выполняет рассуждения, основываясь на этих промежуточных указателях в процессе вывода, что позволяет осуществлять детальное рассуждение на уровне пикселей. Эффективность нашего подхода подтверждена на 10 бенчмарках, охватывающих разнообразные задачи, включая референцию/сегментацию на уровне пикселей и объектно-ориентированное понимание в изображениях/видео. Также разработана новая задача PixelQA, которая требует совместного выполнения референции, сегментации и ответов на вопросы, чтобы проверить гибкость нашего метода.
Мы представляем Reasoning Core — новую масштабируемую среду для обучения с подкреплением с верифицируемыми наградами (RLVR), разработанную для продвижения фундаментальных навыков символического рассуждения в крупных языковых моделях (LLM). В отличие от существующих тестов, которые сосредоточены на играх или изолированных головоломках, Reasoning Core процедурно генерирует задачи в ключевых формальных областях, включая планирование в PDDL, логику первого порядка, синтаксический анализ контекстно-свободных грамматик, причинно-следственные рассуждения и решение систем уравнений. Среда построена на ключевых принципах проектирования: распределения задач высокой общности, верификация с использованием внешних инструментов и непрерывный контроль сложности, что вместе обеспечивает практически бесконечный запас новых обучающих примеров. Первоначальные оценки с нулевым обучением на передовых LLM подтверждают сложность задач Reasoning Core, что делает её перспективным ресурсом для улучшения способностей к рассуждению у будущих моделей.
Современные автономные транспортные средства, находящиеся на переднем крае технологий, могут столкнуться с критическими для безопасности ситуациями, когда их локальные сенсоры оказываются заблокированными крупными объектами на дороге. Для решения этой проблемы было предложено взаимодействие между транспортными средствами (V2V) в рамках кооперативного автономного вождения. Один из недавно представленных подходов к кооперативному автономному вождению дополнительно включает использование мультимодальной крупной языковой модели (MLLM) для интеграции процессов кооперативного восприятия и планирования. Однако, несмотря на потенциальные преимущества применения рассуждений на основе графа мыслей (graph-of-thoughts) к MLLM, эта идея ранее не рассматривалась в исследованиях по кооперативному автономному вождению. В данной статье мы предлагаем новый фреймворк графа мыслей, специально разработанный для кооперативного автономного вождения на основе MLLM. Наш граф мыслей включает предложенные нами новые идеи восприятия с учетом заслонений и прогнозирования с учетом планирования. Мы создаем набор данных V2V-GoT-QA и разрабатываем модель V2V-GoT для обучения и тестирования графа мыслей в контексте кооперативного вождения. Результаты экспериментов показывают, что наш метод превосходит другие базовые подходы в задачах кооперативного восприятия, прогнозирования и планирования.
Безопасность и согласованность крупных языковых моделей (LLM) имеют критическое значение для их ответственного внедрения. Современные методы оценки в основном сосредоточены на выявлении и предотвращении явно вредоносных выводов. Однако они часто не учитывают более коварный режим сбоя: модели, которые производят внешне безобидные выводы, но при этом используют вредоносные или обманчивые внутренние рассуждения. Эта уязвимость, часто вызванная сложными инъекциями системных промптов, позволяет моделям обходить традиционные фильтры безопасности, представляя собой значительный и недостаточно изученный риск. Для устранения этого пробела мы представляем набор данных Deceptive Reasoning Exposure Suite (D-REX), предназначенный для оценки расхождения между внутренним процессом рассуждения модели и её конечным выводом. D-REX был создан в ходе конкурсного упражнения по "красному командованию", где участники разрабатывали враждебные системные промпты для провоцирования подобных обманчивых поведений. Каждый образец в D-REX содержит враждебный системный промпт, тестовый запрос конечного пользователя, внешне безобидный ответ модели и, что наиболее важно, внутреннюю цепочку рассуждений модели, которая раскрывает скрытые вредоносные намерения. Наш бенчмарк способствует новой, важной задаче оценки: обнаружению обманчивой согласованности. Мы демонстрируем, что D-REX представляет собой значительный вызов для существующих моделей и механизмов безопасности, подчеркивая острую необходимость в новых методах, которые анализируют внутренние процессы LLM, а не только их конечные выводы.
Даже без непосредственного восприятия звуков люди могут легко рассуждать о слуховых свойствах, таких как высота тона, громкость или ассоциации с источниками звука, опираясь на слуховую интуицию. В отличие от этого, языковые модели часто лишены такой способности, что ограничивает их эффективность в мультимодальных взаимодействиях. В качестве первого шага для устранения этого пробела мы представляем AuditoryBench++, всеобъемлющий бенчмарк для оценки слуховых знаний и рассуждений в условиях работы только с текстом. Этот бенчмарк включает задачи, начиная от базовых слуховых сравнений до контекстуально обоснованных рассуждений, что позволяет проводить детальный анализ того, как модели обрабатывают и интегрируют слуховые концепции. Кроме того, мы представляем AIR-CoT, новый метод слухового воображения и рассуждения, который генерирует и интегрирует слуховую информацию в процессе вывода через обнаружение фрагментов с использованием специальных токенов и инъекции знаний. Масштабные эксперименты с последними языковыми моделями (LLM) и мультимодальными языковыми моделями (Multimodal LLM) демонстрируют, что AIR-CoT в целом превосходит как готовые модели, так и модели, дополненные слуховыми знаниями. Страница проекта доступна по адресу https://auditorybenchpp.github.io.
В данной статье мы рассматриваем проблемы, связанные с объединением низкоранговых адаптаций крупных нейронных сетей. С появлением методов параметрически эффективной адаптации, таких как Low-Rank Adaptation (LoRA), тонкая настройка моделей стала более доступной. Хотя тонкая настройка моделей с использованием LoRA является высокоэффективной, существующие методы объединения часто жертвуют этой эффективностью, объединяя полномасштабные матрицы весов. Мы предлагаем фреймворк Core Space для объединения, который позволяет объединять модели, адаптированные с помощью LoRA, в рамках общего базиса выравнивания, сохраняя при этом эффективность низкоранговой адаптации и значительно повышая точность на различных задачах. Мы также предоставляем формальное доказательство того, что проекция в Core Space гарантирует отсутствие потери информации, и проводим анализ сложности, демонстрирующий выигрыш в эффективности. Обширные эмпирические результаты показывают, что Core Space существенно улучшает существующие методы объединения и достигает современных результатов как в задачах обработки изображений, так и в языковых задачах, используя лишь часть вычислительных ресурсов. Кодовая база доступна по адресу https://github.com/apanariello4/core-space-merging.
Обучение с подкреплением стало фундаментальной техникой для улучшения способности рассуждений в больших языковых моделях (LLMs). Однако существующие алгоритмы применяют унифицированную оптимизацию ко всем токенам, игнорируя их различные роли в процессе рассуждений. Чтобы устранить это ограничение, мы представляем Heterogeneous Adaptive Policy Optimization (HAPO) — комплексный алгоритм, учитывающий особенности токенов, который динамически адаптирует оптимизацию на основе энтропии токенов. Для сэмплирования в процессе rollout мы предлагаем Adaptive Temperature Sampling, который в реальном времени регулирует температуру сэмплирования, способствуя исследованию для токенов с высокой энтропией и сохраняя связность для токенов с низкой энтропией. Для расчета преимуществ мы вводим Token Level Group Average, который нормализует преимущества на уровне токенов, учитывая длину последовательности, как в loss-функции на основе среднего значения токенов, при этом сохраняя несмещенный подход. Затем мы разрабатываем Differential Advantage Redistribution, который использует энтропию и коэффициенты важности для модуляции обновлений, связанных с наградами, для токенов с четкими сигналами. Для clipping loss мы проектируем Asymmetric Adaptive Clipping, позволяя агрессивное снижение вероятности для шумных токенов с низкой энтропией, при этом обеспечивая исследование для токенов с высокой энтропией. Благодаря систематическому исследованию взаимосвязи между энтропией и динамикой обучения, мы внедрили обработку на уровне токенов на каждом этапе для достижения детализированного контроля. Многочисленные эксперименты демонстрируют, что HAPO стабильно превосходит DAPO на различных масштабах моделей. Наш код доступен по ссылке: https://github.com/starriver030515/HAPO.
Скрытые конфликты лицензий в экосистеме открытого ИИ представляют серьезные юридические и этические риски, подвергая организации потенциальным судебным разбирательствам, а пользователей — нераскрытым рискам. Однако в этой области отсутствует основанное на данных понимание того, насколько часто такие конфликты возникают, где они берут начало и какие сообщества страдают больше всего. Мы представляем первый сквозной аудит лицензий для наборов данных и моделей на платформе Hugging Face, а также их последующей интеграции в приложения с открытым исходным кодом, охватывающий 364 тысячи наборов данных, 1,6 миллиона моделей и 140 тысяч проектов на GitHub. Наш эмпирический анализ выявляет системное несоблюдение лицензий, при котором 35,5% переходов от моделей к приложениям устраняют ограничительные условия лицензий путем перелицензирования на более разрешительных условиях. Кроме того, мы разрабатываем прототип расширяемого механизма правил, который кодирует почти 200 условий SPDX и специфичных для моделей положений для выявления конфликтов лицензий, способный решить 86,4% таких конфликтов в программных приложениях. Для поддержки будущих исследований мы публикуем наш набор данных и прототип механизма. Наше исследование подчеркивает соблюдение лицензий как ключевую задачу управления в открытом ИИ и предоставляет как данные, так и инструменты, необходимые для автоматизированного, масштабируемого контроля соответствия с учетом особенностей ИИ.
Мы представляем perioperation — парадигму для сбора роботизированных данных, которая оснащает датчиками и записывает манипуляции человека, максимизируя переносимость данных на реальных роботов. Мы реализуем эту парадигму в DEXOP, пассивном экзоскелете для руки, разработанном для максимизации способности человека собирать богатые сенсорные данные (зрение + тактильные ощущения) для разнообразных задач ловкой манипуляции в естественных условиях. DEXOP механически соединяет пальцы человека с пальцами робота, предоставляя пользователям прямую обратную связь через контакт (посредством проприоцепции) и отражая позу человеческой руки на пассивной руке робота, чтобы максимизировать передачу демонстрируемых навыков роботу. Обратная связь по усилию и отражение позы делают демонстрацию задач более естественной для человека по сравнению с телеоперацией, повышая как скорость, так и точность. Мы оцениваем DEXOP на ряде задач, требующих ловкости и интенсивного контакта, демонстрируя его способность собирать высококачественные демонстрационные данные в больших масштабах. Политики, обученные на данных DEXOP, значительно улучшают производительность задач на единицу времени сбора данных по сравнению с телеоперацией, что делает DEXOP мощным инструментом для развития ловкости роботов. Наш проект доступен по адресу https://dex-op.github.io.
Диффузионные большие языковые модели (DLLM) в последнее время привлекают растущий интерес как альтернатива авторегрессивным декодерам. В данной работе мы представляем эмпирическое исследование использования диффузионной большой языковой модели LLaDA для автоматического распознавания речи (ASR). Сначала мы исследуем её применение в качестве внешнего модуля обработки на основе обдумывания для транскриптов Whisper-LLaMA. Используя двунаправленное внимание и способность к удалению шума LLaDA, мы изучаем стратегии случайного маскирования, маскирования с низкой уверенностью и полуавторегрессивного декодирования, демонстрируя, что Whisper-LLaDA существенно снижает WER по сравнению с базовым уровнем. На наборе данных LibriSpeech лучшая каскадная система достигает WER 2,25%/4,94% на тестовых данных test-clean/test-other, что представляет собой относительное улучшение на 12,3% по сравнению с базовым уровнем Whisper-LLaMA на разделе test-other. В то же время, простая текстовая LLaDA без акустических признаков не улучшает точность, что подчеркивает важность аудио-обусловленных эмбеддингов. Мы также оцениваем Whisper-LLaDA в качестве автономного декодера для ASR с использованием диффузионного и полуавторегрессивного декодирования. Большинство экспериментальных конфигураций обеспечивают более быстрый вывод, чем базовый уровень Whisper-LLaMA, хотя точность распознавания немного ниже. Эти результаты предлагают эмпирический взгляд на использование диффузионных больших языковых моделей для ASR и указывают на перспективные направления для улучшений.
Эффективность байесовской оптимизации (BO) в значительной степени зависит от выбора ядра гауссовского процесса (GP), которое играет ключевую роль в балансировке исследования и эксплуатации при ограниченном бюджете вычислений. Традиционные методы BO часто полагаются на фиксированные или эвристические стратегии выбора ядра, что может приводить к медленной сходимости или субоптимальным решениям, если выбранное ядро плохо подходит для целевой функции. Чтобы устранить это ограничение, мы предлагаем новый метод Context-Aware Kernel Evolution (CAKE), который улучшает BO с использованием больших языковых моделей (LLM). В частности, CAKE использует LLM в качестве операторов кроссовера и мутации для адаптивной генерации и уточнения ядер GP на основе наблюдаемых данных в процессе оптимизации. Для максимального использования возможностей CAKE мы также предлагаем метод BIC-Acquisition Kernel Ranking (BAKER), который выбирает наиболее эффективное ядро, балансируя качество модели, измеряемое байесовским информационным критерием (BIC), с ожидаемым улучшением на каждой итерации BO. Многочисленные эксперименты показывают, что наш новый метод BO на основе CAKE стабильно превосходит существующие базовые подходы в различных практических задачах, включая оптимизацию гиперпараметров, настройку контроллеров и проектирование фотонных чипов. Наш код доступен по адресу https://github.com/cake4bo/cake.
Крупные языковые модели (LLM) широко используются в различных задачах и приложениях. Однако, несмотря на их обширные возможности, они демонстрируют недостаток культурной адаптации [ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating] и порождают предвзятые результаты [naous-etal-2024-beer] из-за отсутствия культурных знаний и компетенции. Оценка LLM на предмет культурной осведомленности и адаптации особенно сложна из-за отсутствия подходящих метрик оценки и недостатка культурно-ориентированных наборов данных, отражающих сложность культур на региональном и субрегиональном уровнях. Существующие наборы данных для культурно-специфичных элементов (CSI) в основном сосредоточены на концепциях регионального уровня и могут содержать ложные срабатывания. Для решения этой проблемы мы представляем новый набор данных CSI для индийской культуры, охватывающий 17 культурных аспектов. Набор данных включает около 8000 культурных концепций из 36 субрегионов. Чтобы измерить культурную компетенцию LLM в задаче адаптации культурного текста, мы оцениваем адаптации с использованием созданных CSI, LLM в роли судьи и человеческих оценок из различных социодемографических регионов. Кроме того, мы проводим количественный анализ, демонстрирующий избирательное охват субрегионов и поверхностные адаптации во всех рассмотренных LLM. Наш набор данных доступен здесь: https://huggingface.co/datasets/nlip/DIWALI, страница проекта: https://nlip-lab.github.io/nlip/publications/diwali/, а наш код с выводами моделей можно найти здесь: https://github.com/pramitsahoo/culture-evaluation.
Мы представляем BeepBank-500 — компактный, полностью синтетический набор данных звуковых сигналов/оповещений (300–500 клипов), предназначенный для быстрого и юридически чистого экспериментирования в области взаимодействия человека с компьютером и машинного обучения для аудио. Каждый клип генерируется по параметрическому рецепту, который управляет семейством волновых форм (синусоида, прямоугольная, треугольная, FM), основной частотой, длительностью, огибающей амплитуды, амплитудной модуляцией (AM) и легкой реверберацией в стиле Шредера. Мы используем три настройки реверберации: сухая (dry) и два синтетических помещения, обозначенных как 'rir small' ('малое') и 'rir medium' ('среднее') в тексте статьи и метаданных. Мы публикуем монофонические аудиофайлы в формате WAV (48 кГц, 16 бит), подробную таблицу метаданных (сигнальные/спектральные характеристики) и минимальные воспроизводимые базовые модели для (i) классификации семейств волновых форм и (ii) регрессии основной частоты (f0) для одиночных тонов. Корпус ориентирован на задачи, такие как классификация звуковых сигналов, анализ тембра и обнаружение начала звука, с четко указанными лицензиями и ограничениями. Аудио передано в общественное достояние через лицензию CC0-1.0; код распространяется под лицензией MIT. DOI данных: https://doi.org/10.5281/zenodo.17172015. Код: https://github.com/mandip42/earcons-mini-500.
Анализ артефактов культурного наследия остается сложной задачей для мультимодальных языковых моделей (MLLM): общие модели не обладают экспертизой в предметной области, а тонкая настройка (SFT) часто приводит к переобучению поверхностным паттернам, что делает рассуждения хрупкими для задач аутентификации и исторической атрибуции. Это поднимает вопрос о том, как наделить MLLM устойчивым, экспертно-уровневым рассуждением для древнегреческой керамики. Мы представляем VaseVL, систему, основанную на SFT с последующим обучением с подкреплением (RL), которая превращает оценку в супервизию: мы создаем таксономию типов вопросов, исследуем SFT-модель для выявления пробелов в производительности, специфичных для каждого типа, и оптимизируем с помощью наград, ориентированных на композиционность и учитывающих тип, чтобы устранить эти пробелы. Мы также выпускаем VaseVQA, комплексный бенчмарк из 31 773 изображений, предназначенный для проверки глубокого понимания. Эксперименты демонстрируют передовые результаты в классификации стилей и исторической атрибуции с заметным улучшением композиционной устойчивости по сравнению с базовыми моделями, использующими только SFT, что подтверждает эффективность диагностически-ориентированного инжиниринга наград с учетом таксономии и предоставляет повторно используемый ресурс для будущих исследований. Код и набор данных будут доступны по адресу https://github.com/AIGeeksGroup/VaseVQA.
Крупные модели для обработки зрения и языка (Large Vision-Language Models, L-VLMs) продемонстрировали выдающиеся результаты в различных задачах, связанных с обработкой изображений и текста, включая визуальное ответы на вопросы (Visual Question Answering, VQA). Однако их высокая вычислительная стоимость делает их непрактичными для сред с ограниченными ресурсами и приложений, требующих интенсивного вывода. В то же время, небольшие модели для обработки зрения и языка (Small Vision-Language Models, S-VLMs) предлагают эффективность, но значительно уступают по производительности своим более крупным аналогам. В данной работе мы представляем Model Parity Aligner (MPA) — новый фреймворк, предназначенный для систематического улучшения S-VLMs за счет использования немаркированных изображений и эффективного переноса знаний от L-VLMs. В отличие от традиционных методов дистилляции знаний, которые полагаются на маркированные обучающие данные, MPA применяет стратегический подход, основанный на выравнивании, который точно определяет различия в знаниях между S-VLMs и L-VLMs и оптимизирует обучение, фокусируясь только на этих различиях. Мы провели обширные эксперименты на четырех различных бенчмарках VQA, а именно TextVQA, ST-VQA, ChartQA и OKVQA, каждый из которых требует специализированных навыков рассуждения, таких как распознавание текста, интерпретация диаграмм, а также понимание здравого смысла и фактов. Наши результаты показывают, что MPA последовательно улучшает производительность S-VLMs на всех бенчмарках, сокращая разрыв в производительности при сохранении вычислительной эффективности. Мы делаем наш код общедоступным.
Оценка глубины с использованием подводного стереозрения обеспечивает точную 3D-геометрию для задач робототехники, таких как навигация, инспекция и картографирование, предоставляя метрическую глубину с помощью недорогих пассивных камер, избегая при этом проблемы масштабной неопределённости, характерной для монокулярных методов. Однако существующие подходы сталкиваются с двумя ключевыми проблемами: (i) эффективная адаптация крупных базовых кодировщиков компьютерного зрения к подводной среде без необходимости в обширных размеченных данных и (ii) тесное объединение глобально согласованных, но масштабно неопределённых монокулярных априорных данных с локально метрическими, но фотометрически уязвимыми стерео соответствиями. Для решения этих задач мы предлагаем StereoAdapter — параметрически эффективную самообучаемую архитектуру, которая интегрирует монокулярный базовый кодировщик, адаптированный с помощью LoRA, с рекуррентным модулем уточнения стерео. Мы также вводим динамическую адаптацию LoRA для эффективного выбора ранга и предварительного обучения на синтетическом наборе данных UW-StereoDepth-40K для повышения устойчивости в различных подводных условиях. Комплексные оценки на симулированных и реальных тестовых наборах показывают улучшения на 6,11% на TartanAir и 5,12% на SQUID по сравнению с современными методами, а реальное развёртывание на роботе BlueROV2 дополнительно демонстрирует стабильную устойчивость нашего подхода. Код: https://github.com/AIGeeksGroup/StereoAdapter. Сайт: https://aigeeksgroup.github.io/StereoAdapter.
Нейронные аудиокодеки являются фундаментальным компонентом современных генеративных аудио-конвейеров. Хотя последние кодеки достигают высококачественной реконструкции при низких битрейтах и предоставляют мощные представления для последующих задач, большинство из них не поддерживают потоковую передачу, что ограничивает их использование в приложениях реального времени. Мы представляем FocalCodec-Stream, гибридный кодек на основе фокальной модуляции, который сжимает речь в единый бинарный кодек с битрейтом 0,55–0,80 кбит/с и теоретической задержкой 80 мс. Наш подход сочетает многоступенчатую каузальную дистилляцию WavLM с целенаправленными архитектурными улучшениями, включая легковесный модуль уточнения, который повышает качество при ограничениях на задержку. Эксперименты показывают, что FocalCodec-Stream превосходит существующие потоковые кодеки при сопоставимых битрейтах, сохраняя как семантическую, так и акустическую информацию. В результате достигается благоприятный баланс между качеством реконструкции, производительностью на последующих задачах, задержкой и эффективностью. Код и контрольные точки будут опубликованы по адресу https://github.com/lucadellalib/focalcodec.
Автоматизированный анализ кода (Code Review, CR) является ключевым применением больших языковых моделей (LLMs), однако прогресс в этой области сдерживается "разрывом с реальностью": существующие бенчмарки оценивают модели на изолированных подзадачах с использованием упрощенных данных, лишенных контекста. Это не отражает целостный и насыщенный контекстом характер реального CR. Чтобы преодолеть этот разрыв, мы представляем CodeFuse-CR-Bench — первый бенчмарк для оценки CR на уровне репозитория, учитывающий комплексность. CodeFuse-CR-Bench включает 601 высококачественный пример из 70 проектов на Python, охватывающих девять проблемных областей Pull-Request (PR), где каждый пример предоставляет богатый, многогранный контекст, включая связанную задачу, детали PR и состояние репозитория, что позволяет проводить сквозную оценку. Помимо поверхностных метрик, мы также предлагаем новую систему оценки, которая сочетает проверки на основе правил для определения местоположения и синтаксиса с суждениями на основе моделей о качестве анализа. Мы представляем первую масштабную оценку современных LLM на этой комплексной задаче CR. Наши результаты устанавливают важные базовые показатели и показывают, что (1) ни одна LLM не доминирует во всех аспектах CR; (2) Gemini 2.5 Pro демонстрирует наивысшую комплексную производительность; и (3) разные LLM проявляют различную устойчивость к избыточному контексту. Эти выводы подчеркивают необходимость целостной, многомерной оценки и предоставляют практические рекомендации для продвижения действительно интеллектуальных и практичных помощников для CR.
Модели оценки процесса (PRMs) предоставляют детализированные, пошаговые оценки, которые способствуют более глубоким процессам рассуждения в больших языковых моделях (LLMs), демонстрируя эффективность в сложных задачах, таких как математические рассуждения. Однако разработка PRMs сопряжена с трудностями из-за высокой стоимости и ограниченной масштабируемости данных, аннотированных человеком. Синтетические данные, полученные с помощью метода Монте-Карло (MC), представляют собой перспективную альтернативу, но страдают от высокого уровня шума, что может привести к переобучению и затруднить масштабное обучение. В данной работе мы проводим предварительное исследование распределения шума в синтетических данных, полученных методом MC, и выявляем, что модели аннотирования склонны как недооценивать, так и переоценивать правильность шагов из-за ограничений в их способности к аннотированию. На основе этих наблюдений мы предлагаем Self-Denoising Monte Carlo Annotation (SCAN) — эффективную структуру для синтеза данных и обучения, устойчивого к шуму. Наши ключевые выводы заключаются в следующем: (1) Даже легковесные модели (например, с 1,5 млрд параметров) могут создавать высококачественные аннотации с помощью стратегии самоочистки, позволяя PRMs достигать превосходной производительности при затратах на вывод, составляющих всего 6% от затрат, требуемых стандартным методом MC. (2) С нашей устойчивой стратегией обучения PRMs могут эффективно обучаться на основе слабого контроля, демонстрируя улучшение на 39,2 балла F1 (с 19,9 до 59,1) в ProcessBench. Несмотря на использование только компактного синтетического набора данных, наши модели превосходят сильные базовые подходы, включая те, которые обучены на крупномасштабных наборах данных, аннотированных человеком, таких как PRM800K. Более того, производительность продолжает улучшаться по мере увеличения объема синтетических данных, что подчеркивает потенциал SCAN для масштабируемого, экономически эффективного и устойчивого обучения PRMs.