Ежедневно отобранные исследовательские статьи по ИИ с переводами
MCP стандартизирует взаимодействие крупных языковых моделей (LLM) с внешними системами, формируя основу для универсальных агентов. Однако существующие бенчмарки MCP остаются узкими по охвату: они сосредоточены на задачах с преобладанием чтения или задачах с ограниченной глубиной взаимодействия и не учитывают сложность и реалистичность реальных рабочих процессов. Чтобы устранить этот пробел, мы предлагаем MCPMark — бенчмарк, разработанный для оценки использования MCP в более реалистичной и всесторонней манере. Он состоит из 127 высококачественных задач, созданных совместно экспертами в предметной области и ИИ-агентами. Каждая задача начинается с тщательно подготовленного начального состояния и включает программный скрипт для автоматической проверки. Эти задачи требуют более насыщенного и разнообразного взаимодействия с окружением, включая широкий спектр операций создания, чтения, обновления и удаления (CRUD). Мы проводим всестороннюю оценку передовых LLM с использованием минимального агентского фреймворка, работающего в цикле вызова инструментов. Эмпирические результаты показывают, что лучшая модель, gpt-5-medium, достигает лишь 52,56% pass@1 и 33,86% pass^4, в то время как другие широко признанные сильные модели, включая claude-sonnet-4 и o3, не превышают 30% pass@1 и 15% pass^4. В среднем LLM требуют 16,2 шагов выполнения и 17,4 вызовов инструментов на задачу, что значительно превосходит показатели в предыдущих бенчмарках MCP и подчеркивает стресс-тестирующий характер MCPMark.
Связь между вычислительными системами и мозгом служила источником вдохновения для пионеров теории, начиная с Джона фон Неймана и Алана Тьюринга. Универсальные, масштабно-инвариантные биологические сети, такие как мозг, обладают мощными свойствами, включая способность к обобщению во времени, что является основным барьером для машинного обучения на пути к моделям универсального мышления. Мы представляем `Dragon Hatchling` (BDH), новую архитектуру крупной языковой модели, основанную на масштабно-инвариантной биологически вдохновленной сети локально взаимодействующих нейронных частиц. BDH сочетает в себе прочные теоретические основы и врожденную интерпретируемость, не жертвуя при этом производительностью, сравнимой с трансформерами. BDH — это практичная, высокопроизводительная архитектура для обучения последовательностей на основе внимания и пространства состояний, соответствующая современным стандартам. Помимо того, что BDH является графовой моделью, она допускает формулировку, оптимизированную для работы на GPU. Она демонстрирует законы масштабирования, аналогичные трансформерам: эмпирически BDH соперничает с производительностью GPT2 на задачах языка и перевода при одинаковом количестве параметров (от 10 млн до 1 млрд) и одинаковых данных для обучения. BDH может быть представлена как модель мозга. Рабочая память BDH во время вывода полностью зависит от синаптической пластичности с использованием обучения Хебба на основе спайковых нейронов. Мы эмпирически подтверждаем, что конкретные, индивидуальные синапсы укрепляют связь всякий раз, когда BDH "слышит" или рассуждает о конкретной концепции при обработке языковых входных данных. Сеть взаимодействия нейронов BDH представляет собой граф с высокой модулярностью и тяжелым хвостом распределения степеней. Модель BDH биологически правдоподобна, объясняя один из возможных механизмов, который человеческие нейроны могут использовать для достижения речи. BH разработана с учетом интерпретируемости. Векторы активации BDH разреженные и положительные. Мы демонстрируем моносемантичность BDH на языковых задачах. Интерпретируемость состояния, которая выходит за рамки интерпретируемости нейронов и параметров модели, является врожденной особенностью архитектуры BDH.
Хотя обучение с подкреплением (RL) может эффективно улучшать способности к рассуждению у моделей, работающих с визуальными и языковыми данными (VLMs), существующие методы по-прежнему сильно зависят от трудоемких наборов данных, требующих значительных усилий для ручного создания и проверки, что приводит к чрезвычайно высоким затратам на обучение и, как следствие, ограничивает практическое применение VLMs. Чтобы решить эту проблему, мы предлагаем Vision-Zero — универсальную структуру, позволяющую VLMs самостоятельно улучшаться через соревновательные визуальные игры, генерируемые из произвольных пар изображений. В частности, Vision-Zero включает три ключевых аспекта: (1) **Фреймворк стратегического самообучения**: Vision-Zero обучает VLMs в играх в стиле "Кто шпион?", где модели участвуют в стратегическом рассуждении и действиях в различных ролях. В процессе интерактивной игры модели автономно генерируют свои обучающие данные без участия человека. (2) **Игры на основе произвольных изображений**: В отличие от существующих игровых фреймворков, Vision-Zero может создавать игры из любых изображений, что улучшает способность модели к рассуждению в различных областях и демонстрирует сильную обобщаемость для разных задач. Мы показываем эту универсальность на трех типах наборов данных: синтетических сценах на основе CLEVR, графиках и реальных изображениях. (3) **Устойчивое улучшение производительности**: Мы представляем Iterative Self-Play Policy Optimization (Iterative-SPO) — новый алгоритм обучения, который чередует самообучение и обучение с подкреплением с проверяемыми наградами (RLVR), устраняя плато производительности, часто наблюдаемое при обучении только через самообучение, и обеспечивая долгосрочные улучшения. Несмотря на использование данных без меток, Vision-Zero достигает наилучших результатов в задачах рассуждения, ответов на вопросы по графикам и визуального понимания, превосходя другие методы, основанные на аннотациях. Модели и код доступны по адресу https://github.com/wangqinsi1/Vision-Zero.
По мере того как контролируемая тонкая настройка (SFT) превращается из легковесного этапа пост-обучения в вычислительно интенсивную фазу, сопоставимую по масштабу с серединой обучения, эффективность использования данных становится критически важной для согласования больших языковых моделей (LLM) при ограниченных ресурсах. Существующие методы сокращения данных страдают от фрагментированного подхода: они работают либо на уровне примеров, либо на уровне токенов изолированно, не оптимизируя оба измерения совместно. Этот разрыв приводит к значительной неэффективности — высокоценные примеры могут содержать избыточные токены, а сокращение на уровне токенов часто удаляет важные инструктивные или корректирующие сигналы, встроенные в отдельные примеры. Чтобы устранить это узкое место, мы представляем плоскость Ошибка-Неопределенность (EU Plane), диагностическую структуру, которая совместно характеризует разнородную полезность обучающих данных на уровне примеров и токенов. Руководствуясь этим пониманием, мы предлагаем Квадрантную Настройку (Q-Tuning), унифицированную структуру, которая стратегически координирует сокращение примеров и токенов. Q-Tuning использует двухэтапную стратегию: сначала она выполняет сортировку на уровне примеров, чтобы сохранить примеры, богатые информативными заблуждениями или калибровочными сигналами; затем применяет асимметричную политику сокращения токенов, используя контекстно-зависимый механизм оценки для удаления менее значимых токенов исключительно из примеров с заблуждениями, сохраняя при этом калибровочные примеры целиком. Наш метод устанавливает новый эталон на пяти разнообразных бенчмарках. Примечательно, что на модели SmolLM2-1.7B Q-Tuning достигает среднего улучшения на +38\% по сравнению с базовым SFT на полных данных, используя всего 12.5\% исходных обучающих данных. Будучи первым динамическим методом сокращения данных, который стабильно превосходит обучение на полных данных, Q-Tuning предлагает практичный и масштабируемый подход для максимизации использования данных в SFT LLM при ограниченных ресурсах.
Хотя крупные языковые модели (LLMs) демонстрируют высокую производительность в задачах ответов на фактологические вопросы, они всё ещё склонны к галлюцинациям и недостоверным ответам, особенно когда задачи требуют информации, выходящей за пределы их параметрических знаний. Действительно, достоверность требует большего, чем просто точность — модели также должны распознавать неопределённость и воздерживаться от ответов, когда они неуверены, чтобы избежать галлюцинаций. Это представляет собой фундаментальную проблему для существующих методов: подходы, оптимизирующие точность, часто усиливают галлюцинации, в то время как методы, поощряющие воздержание, могут становиться излишне консервативными, жертвуя правильными ответами. Оба крайних случая в конечном итоге подрывают достоверность. В данной работе мы представляем TruthRL, общий фреймворк обучения с подкреплением (RL), который напрямую оптимизирует достоверность LLMs. В частности, мы реализуем TruthRL с использованием GRPO с простым, но эффективным троичным вознаграждением, которое различает правильные ответы, галлюцинации и воздержания. Он стимулирует модели уменьшать галлюцинации не только за счёт предоставления правильных ответов, но и за счёт возможности воздерживаться в случае неопределённости, тем самым повышая достоверность. Масштабные эксперименты на четырёх тестовых наборах, требующих глубоких знаний, показывают, что по сравнению с базовым RL, TruthRL значительно сокращает галлюцинации на 28,9% и повышает достоверность на 21,1%, с устойчивыми улучшениями для различных базовых моделей (например, Qwen, Llama) как в условиях с использованием поиска, так и без него. Детальное исследование демонстрирует, что базовые методы, ориентированные на точность, такие как тонкая настройка с учителем или RL с бинарным вознаграждением, испытывают трудности в балансировании фактической точности и неопределённости. В отличие от них, наш предложенный TruthRL, ориентированный на достоверность, достигает высокой производительности как в точности, так и в достоверности, подчёркивая важность проектирования целей обучения для разработки достоверных LLMs.
Мы представляем OceanGym — первый всеобъемлющий бенчмарк для воплощенных агентов, работающих в океанической подводной среде, разработанный для продвижения ИИ в одной из самых сложных реальных сред. В отличие от наземных или воздушных областей, подводные условия представляют собой экстремальные вызовы для восприятия и принятия решений, включая низкую видимость и динамические океанические течения, что делает эффективное развертывание агентов исключительно трудным. OceanGym охватывает восемь реалистичных задач и унифицированную структуру агента, управляемую мультимодальными большими языковыми моделями (MLLM), которая интегрирует восприятие, память и последовательное принятие решений. Агенты должны анализировать оптические и гидроакустические данные, автономно исследовать сложные среды и достигать долгосрочных целей в этих суровых условиях. Масштабные эксперименты выявили значительный разрыв между современными агентами на основе MLLM и экспертами-людьми, подчеркивая сохраняющиеся трудности в восприятии, планировании и адаптации в подводных океанических условиях. Предоставляя высокоточную и тщательно разработанную платформу, OceanGym создает тестовую среду для разработки устойчивых воплощенных ИИ и переноса этих возможностей на реальные автономные подводные аппараты, делая решительный шаг к созданию интеллектуальных агентов, способных работать в одной из последних неисследованных областей Земли. Код и данные доступны по адресу https://github.com/OceanGPT/OceanGym.
Крупные языковые модели (LLM), несмотря на обучение исключительно на текстовых данных, удивительным образом развивают богатые визуальные априорные знания. Эти априорные знания позволяют раскрыть скрытые визуальные способности для задач компьютерного зрения с использованием относительно небольшого объема мультимодальных данных, а в некоторых случаях — выполнять визуальные задачи, никогда не видев изображений. Благодаря систематическому анализу мы выяснили, что визуальные априорные знания — неявное, возникающее знание о визуальном мире, приобретенное в ходе предварительного обучения на языковых данных, — состоят из разделяемых априорных знаний о восприятии и рассуждении, которые имеют уникальные тенденции масштабирования и источники. Мы показываем, что скрытая способность LLM к визуальному рассуждению в основном развивается за счет предварительного обучения на данных, ориентированных на рассуждения (например, код, математика, академические тексты), и прогрессивно масштабируется. Это априорное знание, приобретенное в ходе языкового предварительного обучения, является переносимым и универсально применимым для визуального рассуждения. В отличие от этого, априорное знание о восприятии возникает более диффузно из широких корпусов текстов, а способность к восприятию более чувствительна к визуальному кодировщику и данным для настройки визуальных инструкций. Параллельно текст, описывающий визуальный мир, оказывается крайне важным, хотя его влияние на производительность быстро насыщается. Используя эти инсайты, мы предлагаем подход, ориентированный на данные, для предварительного обучения LLM с учетом визуальных аспектов и проверяем его на масштабе предварительного обучения с 1 триллионом токенов. Наши выводы основаны на более чем 100 контролируемых экспериментах, потребовавших 500 000 GPU-часов, охватывающих весь процесс создания мультимодальных языковых моделей (MLLM) — от предварительного обучения LLM до визуального выравнивания и контролируемой мультимодальной тонкой настройки — на пяти масштабах моделей, широком спектре категорий и смесей данных, а также множестве настроек адаптации. Наряду с основными результатами мы предлагаем и исследуем несколько гипотез, а также представляем бенчмарк Multi-Level Existence Bench (MLE-Bench). В совокупности эта работа предлагает новый способ целенаправленного формирования визуальных априорных знаний из языкового предварительного обучения, прокладывая путь к следующему поколению мультимодальных LLM.
Рассуждения стали ключевой способностью в больших языковых моделях (LLM). Благодаря обучению с подкреплением (RL), в частности, оптимизации групповой относительной политики (GRPO), эти модели способны решать сложные задачи, такие как математика и генерация кода. Опираясь на эти достижения, недавние исследования стремились расширить способность рассуждений на визуально-языковые модели (VLM), демонстрируя многообещающие результаты в различных визуальных задачах. Однако, несмотря на этот прогресс, наше исследование выявляет двойственную природу мультимодальных рассуждений: хотя они значительно улучшают логический вывод и способствуют решению сложных проблем, они могут постепенно ухудшать восприятие, приводя к ошибкам распознавания в, казалось бы, простых визуальных вопросах. Дальнейший анализ позволяет нам связать это явление с визуальным забыванием, при котором длительные рассуждения заставляют модель всё больше игнорировать визуальные данные. Для решения этой проблемы мы предлагаем оптимизацию политики с визуальной привязкой (VAPO) — простой, но эффективный метод, который явно направляет процесс рассуждений на визуально обоснованные траектории. Наша итоговая модель, VAPO-Thinker-7B, значительно усиливает зависимость модели от визуальной информации и устанавливает новые рекорды на широком спектре общепризнанных тестов. Страница проекта: https://xytian1008.github.io/VAPO/
Обучение с подкреплением с верифицируемой наградой (RLVR) эффективно решает сложные задачи, но требует чрезвычайно длинных контекстов во время обучения, что приводит к значительным вычислительным затратам. Хотя многоэтапное обучение может частично смягчить эту проблему, начало с излишне коротких контекстов часто вызывает необратимое ухудшение производительности, в конечном итоге не позволяя существенно сократить общие вычислительные затраты на обучение. В данной работе мы представляем **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), простое, но эффективное адаптивное решение для RLVR, которое объединяет длинную дистилляцию цепочки рассуждений (CoT) и стандартный RLVR. TFPI использует простую операцию *ThinkFree*, явно отбрасывая содержание рассуждений с помощью прямого добавления *</think>*, чтобы сократить использование токенов во время вывода. Обучение с адаптированными входами *ThinkFree* улучшает производительность и снижает потребление токенов, даже в исходном режиме медленного мышления. Многочисленные эксперименты на различных бенчмарках показали, что TFPI ускоряет сходимость RL, достигает более высокого потолка производительности и создает более эффективные модели рассуждений без специализированных наград или сложных схем обучения. Только с использованием TFPI мы обучили модель на 4 миллиарда параметров, достигнув точности 89,0% на AIME24 и 65,5% на LiveCodeBench, затратив менее 4000 часов на H20.
Мы представляем DC-VideoGen — фреймворк для ускорения генерации видео после обучения, повышающий эффективность. DC-VideoGen может быть применен к любой предварительно обученной модели диффузии видео, улучшая ее производительность за счет адаптации к глубоко сжатому латентному пространству с помощью легкой тонкой настройки. Фреймворк основан на двух ключевых инновациях: (i) Deep Compression Video Autoencoder с новой чанк-каузальной временной архитектурой, которая обеспечивает 32x/64x сжатие по пространству и 4x по времени, сохраняя качество реконструкции и обобщение на более длинные видео; и (ii) AE-Adapt-V — надежная стратегия адаптации, которая позволяет быстро и стабильно переносить предварительно обученные модели в новое латентное пространство. Адаптация предварительно обученной модели Wan-2.1-14B с использованием DC-VideoGen требует всего 10 GPU-дней на GPU NVIDIA H100. Ускоренные модели достигают до 14.8x меньшей задержки при выводе по сравнению с базовыми версиями без потери качества и дополнительно позволяют генерировать видео с разрешением 2160x3840 на одном GPU. Код: https://github.com/dc-ai-projects/DC-VideoGen.
Оценки на основе больших языковых моделей (LLM) используют мощные LLM для эффективной оценки кандидатов и предоставления оценочных баллов. Однако присущие LLM-генерации суждений предубеждения и уязвимости вызывают обеспокоенность, подчеркивая острую необходимость их выявления в чувствительных сценариях, таких как академическое рецензирование. В данной работе мы предлагаем и формализуем задачу обнаружения суждений и систематически исследуем возможность выявления LLM-генерации суждений. В отличие от обнаружения LLM-генерации текста, обнаружение суждений опирается исключительно на оценочные баллы и кандидатов, что отражает реальные сценарии, где текстовые отзывы часто недоступны в процессе обнаружения. Наш предварительный анализ показывает, что существующие методы обнаружения LLM-генерации текста работают плохо из-за их неспособности уловить взаимодействие между оценочными баллами и содержанием кандидатов — аспект, критически важный для эффективного обнаружения суждений. Вдохновленные этим, мы представляем J-Detector, легкий и прозрачный нейронный детектор, дополненный явно извлеченными лингвистическими и LLM-усиленными признаками, чтобы связать предубеждения LLM-судей со свойствами кандидатов для точного обнаружения. Эксперименты на различных наборах данных демонстрируют эффективность J-Detector и показывают, как его интерпретируемость позволяет количественно оценивать предубеждения LLM-судей. Наконец, мы анализируем ключевые факторы, влияющие на возможность выявления LLM-генерации суждений, и подтверждаем практическую полезность обнаружения суждений в реальных сценариях.
Замечательные способности современных крупных моделей рассуждений в значительной степени раскрываются благодаря посттренировочным техникам, таким как контролируемая тонкая настройка и обучение с подкреплением. Однако архитектурные механизмы, лежащие в основе таких улучшений, остаются в основном неясными. В данной работе мы используем анализ схем, чтобы продемонстрировать, что посттренировка для сложных рассуждений стимулирует появление новых, функционально специализированных голов внимания. Эти головы коллективно поддерживают структурированные рассуждения и вычисления. Наш сравнительный анализ семейств моделей Qwen и модели DeepSeek-distilled показывает, что эти возникающие головы развиваются по-разному в зависимости от различных режимов обучения. Дистилляция и контролируемая тонкая настройка способствуют кумулятивному добавлению стабильных голов рассуждений. В отличие от этого, групповая относительная оптимизация политики работает в динамическом режиме поиска: относительно небольшое количество голов внимания итеративно активируется, оценивается и отсекается, причем их выживание тесно связано с колебаниями сигнала награды задачи. Кроме того, мы обнаруживаем, что управляемые модели с возможностью включения/выключения мышления не обладают выделенными головами для мышления. Вместо этого, отключение явных рассуждений активирует более широкий, но менее эффективный набор компенсаторных голов. С помощью абляционного и качественного анализа мы связываем эти динамики на уровне схем с ключевым компромиссом в производительности: усиленные головы позволяют применять сложные стратегии решения трудных задач, но также могут приводить к режимам сбоя из-за чрезмерного мышления, таким как ошибки в вычислениях или логические циклы на более простых задачах. Эти результаты связывают динамику на уровне схем с макроуровневой производительностью, выявляя внутреннее противоречие, при котором сложные рассуждения достигаются за счет элементарных вычислений. В более широком смысле наша работа указывает на будущие направления проектирования политик обучения, подчеркивая необходимость баланса между разработкой эффективных стратегий рассуждений и обеспечением надежного, безошибочного выполнения.
Диффузионные большие языковые модели (dLLM) недавно привлекли значительное внимание исследовательского сообщества как перспективная альтернатива авторегрессивной генерации, предлагая параллельное предсказание токенов и более низкую задержку при выводе. Однако их потенциал для параллельного декодирования остается в значительной степени неисследованным, поскольку существующие модели с открытым исходным кодом по-прежнему требуют почти столько же шагов декодирования, сколько и длина токенов, чтобы обеспечить производительность. Чтобы решить эту проблему, мы представляем dParallel — простой и эффективный метод, который раскрывает внутренний параллелизм dLLM для быстрого сэмплирования. Мы выяснили, что ключевым узким местом для параллельного декодирования является последовательное сходимость уверенности для маскированных токенов. Основываясь на этом наблюдении, мы представляем основу нашего подхода: дистилляцию с принудительной уверенностью — новую стратегию обучения, которая дистиллирует модель для следования её исходным траекториям сэмплирования, одновременно заставляя её достигать высокой уверенности в маскированных токенах быстрее и параллельно. Многочисленные эксперименты на различных бенчмарках демонстрируют, что наш метод может значительно сократить количество шагов декодирования при сохранении производительности. При применении к модели LLaDA-8B-Instruct dParallel сокращает количество шагов декодирования с 256 до 30 на GSM8K, достигая ускорения в 8,5 раз без ухудшения производительности. На бенчмарке MBPP он сокращает шаги декодирования с 256 до 24, что приводит к ускорению в 10,5 раз при сохранении точности. Наш код доступен по адресу https://github.com/czg1225/dParallel.
По мере того как агенты на основе больших языковых моделей (LLM) всё чаще внедряются в реальные сценарии, существующие бенчмарки не способны охватить их внутреннюю сложность, связанную с обработкой обширной информации, использованием разнообразных ресурсов и управлением динамическими взаимодействиями с пользователями. Чтобы устранить этот пробел, мы представляем VitaBench — сложный бенчмарк, который оценивает агентов на основе универсальных интерактивных задач, основанных на реальных сценариях. Опираясь на повседневные приложения, такие как доставка еды, потребление в магазинах и онлайн-услуги для путешествий, VitaBench предлагает агентам наиболее сложную на сегодняшний день симуляцию жизненных ситуаций, включающую 66 инструментов. Благодаря фреймворку, который исключает доменно-специфичные политики, мы обеспечиваем гибкую композицию этих сценариев и инструментов, создавая 100 кросс-сценарных задач (основные результаты) и 300 односценарных задач. Каждая задача основана на множестве реальных запросов пользователей и требует от агентов рассуждений в временных и пространственных измерениях, использования сложных наборов инструментов, активного уточнения неоднозначных инструкций и отслеживания изменяющихся намерений пользователя в ходе многоходовых диалогов. Кроме того, мы предлагаем оценочную систему на основе рубрик с использованием скользящего окна, что позволяет проводить устойчивую оценку разнообразных путей решения в сложных средах и стохастических взаимодействиях. Наше всестороннее тестирование показывает, что даже самые передовые модели достигают лишь 30% успеха в кросс-сценарных задачах и менее 50% успеха в остальных. В целом, мы считаем, что VitaBench станет ценным ресурсом для продвижения разработки ИИ-агентов в практических реальных приложениях. Код, набор данных и таблица лидеров доступны по адресу https://vitabench.github.io/.
Могут ли люди идентифицировать сгенерированные ИИ (поддельные) видео и обосновать свои выводы? Хотя модели генерации видео быстро развиваются, критический аспект — способность людей обнаруживать следы дипфейков в сгенерированных видео, то есть пространственно-временные визуальные артефакты, которые выдают видео как машинно созданное, — оставался в значительной степени упущенным. Мы представляем DeeptraceReward, первый детализированный бенчмарк, учитывающий пространственные и временные аспекты, который аннотирует воспринимаемые человеком следы подделок для оценки качества генерации видео. Набор данных включает 4,3 тыс. подробных аннотаций для 3,3 тыс. высококачественных сгенерированных видео. Каждая аннотация содержит объяснение на естественном языке, указывает ограничивающую рамку области с воспринимаемым следом и отмечает точные временные метки начала и окончания. Мы объединили эти аннотации в 9 основных категорий следов дипфейков, которые позволяют людям идентифицировать видео как сгенерированное ИИ, и обучили мультимодальные языковые модели (LM) в качестве моделей вознаграждения для имитации человеческих суждений и локализации. На DeeptraceReward наша модель вознаграждения с 7 млрд параметров превосходит GPT-5 на 34,7% в среднем по задачам идентификации поддельных следов, их локализации и объяснения. Интересно, что мы наблюдаем устойчивый градиент сложности: бинарная классификация на поддельное и настоящее видео значительно проще, чем детектирование тонких следов дипфейков; в последнем случае производительность снижается от объяснений на естественном языке (самое простое), к пространственной локализации, и далее к временной маркировке (самое сложное). Выделяя воспринимаемые человеком следы дипфейков, DeeptraceReward предоставляет строгую тестовую среду и обучающий сигнал для социально осознанной и заслуживающей доверия генерации видео.
Обеспечение точного мультимодального соответствия между изображениями, сгенерированными с помощью диффузионных моделей, и входными текстовыми запросами остается давней проблемой. Предыдущие работы настраивали веса диффузионных моделей с использованием высококачественных данных о предпочтениях, которые, как правило, ограничены и сложны для масштабирования. Недавние методы, основанные на редактировании, дополнительно улучшают локальные области сгенерированных изображений, но могут ухудшать общее качество изображения. В данной работе мы предлагаем Implicit Multimodal Guidance (IMG) — новый фреймворк для мультимодального выравнивания, основанный на повторной генерации, который не требует дополнительных данных или операций редактирования. В частности, для заданного сгенерированного изображения и его текстового запроса IMG: а) использует мультимодальную языковую модель (MLLM) для выявления несоответствий; б) вводит Implicit Aligner, который манипулирует признаками условий диффузии для уменьшения несоответствий и обеспечения повторной генерации; и в) формулирует цель повторного выравнивания в виде обучаемой функции, называемой Iteratively Updated Preference Objective. Обширные качественные и количественные оценки на моделях SDXL, SDXL-DPO и FLUX показывают, что IMG превосходит существующие методы выравнивания. Более того, IMG выступает в качестве гибкого адаптера plug-and-play, бесшовно улучшая предыдущие методы выравнивания, основанные на тонкой настройке. Наш код будет доступен по адресу https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
Хотя предыдущие системы AI Scientist способны генерировать новые открытия, они часто не обладают достаточной направленностью для создания научно значимых результатов, которые решают актуальные задачи, определенные человеком. Мы представляем DeepScientist — систему, разработанную для преодоления этого ограничения путем проведения целенаправленных, полностью автономных научных открытий на временных интервалах продолжительностью в несколько месяцев. Она формализует процесс открытия как задачу байесовской оптимизации, реализуемую через иерархический процесс оценки, состоящий из этапов "гипотеза, проверка и анализ". Используя накопительную память Findings Memory, этот цикл интеллектуально балансирует исследование новых гипотез с их использованием, избирательно продвигая наиболее перспективные результаты на более высокие уровни проверки. Потратив более 20 000 GPU-часов, система сгенерировала около 5 000 уникальных научных идей и экспериментально подтвердила примерно 1 100 из них, в конечном итоге превзойдя человеческие методы, соответствующие современному уровню (state-of-the-art, SOTA), на трех передовых задачах ИИ на 183,7%, 1,9% и 7,9%. Эта работа представляет собой первое крупномасштабное доказательство того, что ИИ способен достигать открытий, которые постепенно превосходят человеческий SOTA в научных задачах, создавая ценные результаты, которые действительно продвигают границы научного познания. Чтобы способствовать дальнейшим исследованиям в этой области, мы опубликуем все экспериментальные журналы и код системы на https://github.com/ResearAI/DeepScientist/.
Генерация видео из изображений достигла значительных успехов благодаря развитию диффузионных моделей, однако создание видео с реалистичным движением остается крайне сложной задачей. Эта сложность обусловлена трудностями точного моделирования движения, которое требует учета физических ограничений, взаимодействий объектов и специфической динамики, характерной для различных сценариев, что нелегко обобщить. Для решения этой проблемы мы предлагаем MotionRAG — фреймворк, усиленный механизмом извлечения данных, который повышает реалистичность движения за счет адаптации приоритетов движения из релевантных эталонных видео с помощью контекстно-зависимой адаптации движения (CAMA). Ключевые технические инновации включают: (i) конвейер на основе извлечения данных, который извлекает высокоуровневые признаки движения с использованием видеокодера и специализированных ресемплеров для получения семантических представлений движения; (ii) подход к адаптации движения через обучение в контексте, реализованный с помощью архитектуры причинного трансформера; (iii) адаптер для внедрения движения на основе механизма внимания, который бесшовно интегрирует перенесенные признаки движения в предобученные диффузионные модели видео. Многочисленные эксперименты демонстрируют, что наш метод обеспечивает значительные улучшения в различных областях и на различных базовых моделях, при этом с минимальными вычислительными затратами на этапе вывода. Кроме того, модульная конструкция позволяет обобщать на новые области без дообучения, просто обновляя базу данных для извлечения. Это исследование расширяет ключевые возможности систем генерации видео, обеспечивая эффективное извлечение и перенос приоритетов движения, что способствует синтезу реалистичной динамики движения.
Методы аудиовизуального разделения речи (AVSS) используют визуальные подсказки для извлечения целевой речи и демонстрируют высокое качество разделения в шумных акустических условиях. Однако эти методы обычно включают большое количество параметров и требуют значительных вычислительных затрат, что неприемлемо во многих приложениях, где разделение речи служит лишь этапом предварительной обработки для дальнейшего анализа речи. Для решения этой проблемы мы предлагаем эффективный метод AVSS под названием Dolphin. Для извлечения визуальных признаков мы разработали DP-LipCoder — двухканальный легковесный видеокодер, который преобразует движение губ в дискретные семантические токены, синхронизированные с аудио. Для разделения аудио мы создали легковесный кодер-декодер, в котором каждый слой включает блок глобально-локального внимания (GLA) для эффективного захвата зависимостей на разных масштабах. Эксперименты на трех эталонных наборах данных показали, что Dolphin не только превзошел текущую модель с наилучшими показателями (SOTA) по качеству разделения, но и достиг значительного улучшения эффективности: более чем на 50% меньше параметров, сокращение количества операций (MACs) более чем в 2,4 раза и ускорение вывода на GPU более чем в 6 раз. Эти результаты указывают на то, что Dolphin предлагает практичное и применимое решение для высокопроизводительного AVSS в реальных сценариях. Наш код и демонстрационная страница доступны по адресу http://cslikai.cn/Dolphin/.
Panorama обладает полным полем обзора (360°×180°), предоставляя более полное визуальное описание по сравнению с перспективными изображениями. Благодаря этой характеристике, оценка глубины в панорамных изображениях становится всё более популярной в области 3D-зрения. Однако из-за ограниченности панорамных данных предыдущие методы часто ограничиваются внутридоменными настройками, что приводит к слабой обобщаемости в условиях zero-shot. Кроме того, из-за сферических искажений, присущих панорамам, многие подходы полагаются на разделение перспективы (например, кубические карты), что снижает эффективность. Для решения этих проблем мы предлагаем DA²: Depth Anything in Any Direction — точный, обобщаемый в условиях zero-shot и полностью сквозной панорамный оценщик глубины. В частности, для масштабирования панорамных данных мы представляем механизм подготовки данных для генерации высококачественных панорамных данных о глубине из перспективных изображений и создаем ~543K панорамных пар RGB-глубина, увеличивая общее количество до ~607K. Чтобы дополнительно смягчить сферические искажения, мы предлагаем SphereViT, который явно использует сферические координаты для обеспечения сферической геометрической согласованности в панорамных признаках изображений, что приводит к улучшенной производительности. Комплексное тестирование на нескольких наборах данных явно демонстрирует SoTA-производительность DA², с улучшением на 38% по метрике AbsRel по сравнению с самым сильным базовым методом zero-shot. Удивительно, но DA² даже превосходит предыдущие внутридоменные методы, подчеркивая его превосходную обобщаемость в условиях zero-shot. Более того, как сквозное решение, DA² демонстрирует значительно более высокую эффективность по сравнению с подходами, основанными на слиянии. И код, и подготовленные панорамные данные будут опубликованы. Страница проекта: https://depth-any-in-any-dir.github.io/.
Агенты на основе больших языковых моделей (LLM) ограничены узкими окнами контекста, что требует использования внешних систем памяти для долгосрочного понимания информации. Современные агенты с расширенной памятью обычно полагаются на предопределенные инструкции и инструменты для обновления памяти. Однако языковые модели могут не обладать способностью определять, какую информацию сохранять, как её структурировать и когда обновлять, особенно по мере усложнения систем памяти. Это приводит к неоптимальному построению памяти и потере информации. Для решения этой проблемы мы предлагаем Mem-alpha — фреймворк обучения с подкреплением, который обучает агентов эффективно управлять сложными системами памяти через взаимодействие и обратную связь. Мы также создаем специализированный набор данных для обучения, охватывающий разнообразные многократные шаблоны взаимодействия, дополненные комплексными оценочными вопросами, предназначенными для обучения эффективному управлению памятью. В процессе обучения агенты обрабатывают последовательные фрагменты информации, учатся извлекать и сохранять релевантное содержимое, а затем обновляют систему памяти. Сигнал вознаграждения формируется на основе точности ответов на вопросы, охватывающих всю историю взаимодействия, что напрямую оптимизирует построение памяти. Чтобы продемонстрировать эффективность нашего фреймворка, мы разрабатываем архитектуру памяти, состоящую из ядра, эпизодического и семантического компонентов, оснащенных множеством инструментов для операций с памятью. Эмпирическая оценка показывает, что Mem-alpha достигает значительных улучшений по сравнению с существующими базовыми агентами с расширенной памятью. Несмотря на обучение исключительно на примерах с максимальной длиной 30 тысяч токенов, наши агенты демонстрируют замечательную способность к обобщению на последовательности, превышающие 400 тысяч токенов, что более чем в 13 раз превышает длину обучения, подчеркивая устойчивость Mem-alpha.
Безопасность больших языковых моделей (LLM) является одной из наиболее актуальных проблем для их широкомасштабного внедрения. В то время как большинство исследований и глобальных обсуждений сосредоточены на общих рисках, таких как помощь моделей пользователям в причинении вреда себе или другим, предприятия сталкиваются с более фундаментальной проблемой: безопасны ли LLM-агенты для их целевого использования. Для решения этой проблемы мы вводим понятие операционной безопасности, определяемой как способность LLM корректно принимать или отклонять запросы пользователей при выполнении конкретной задачи. Мы также предлагаем OffTopicEval — набор инструментов и эталон для оценки операционной безопасности как в общем случае, так и в рамках конкретных агентских сценариев. Наши оценки шести семейств моделей, включающих 20 открытых LLM, показывают, что, несмотря на различия в производительности, все они остаются крайне небезопасными в операционном плане. Даже самые сильные модели — Qwen-3 (235B) с показателем 77,77% и Mistral (24B) с 79,96% — далеки от надежной операционной безопасности, в то время как модели GPT стабилизируются в диапазоне 62–73%, Phi демонстрирует средние результаты (48–70%), а Gemma и Llama-3 опускаются до 39,53% и 23,84% соответственно. Хотя операционная безопасность является ключевой проблемой согласованности моделей, для подавления этих сбоев мы предлагаем методы управления на основе промптов: привязка к запросу (Q-ground) и привязка к системному промпту (P-ground), которые значительно улучшают отклонение запросов вне области применения. Q-ground обеспечивает стабильный прирост до 23%, а P-ground дает еще больший эффект, повышая Llama-3.3 (70B) на 41% и Qwen-3 (30B) на 27%. Эти результаты подчеркивают как острую необходимость вмешательств для обеспечения операционной безопасности, так и потенциал управления на основе промптов в качестве первого шага к созданию более надежных LLM-агентов.
Оптимизатор Muon стабильно превосходит Adam по скорости обучения больших языковых моделей (LLM), однако механизм, лежащий в основе его успеха, остается неясным. В данной статье мы раскрываем этот механизм через призму ассоциативной памяти. Исключая компоненты трансформера, оптимизируемые Muon, мы обнаруживаем, что параметры ассоциативной памяти LLM, а именно веса внимания Value и Output (VO) и сети прямого распространения (FFN), являются основными факторами превосходства Muon. Вдохновленные этим взглядом на ассоциативную память, мы затем объясняем превосходство Muon на реальных корпусах, которые по своей природе имеют тяжелые хвосты: несколько классов (хвостовые классы) встречаются значительно реже, чем другие. Это превосходство объясняется двумя ключевыми свойствами: (i) правило обновления Muon стабильно приводит к более изотропному спектру сингулярных значений по сравнению с Adam; и, как следствие, (ii) на данных с тяжелыми хвостами он оптимизирует хвостовые классы более эффективно, чем Adam. Помимо эмпирических данных, мы теоретически подтверждаем эти выводы, анализируя однослойную модель ассоциативной памяти на данных с дисбалансом классов. Мы доказываем, что Muon стабильно достигает сбалансированного обучения по классам независимо от свойств эмбеддингов, тогда как Adam может вызывать значительные различия в ошибках обучения в зависимости от свойств эмбеддингов. В итоге, наши эмпирические наблюдения и теоретические анализы раскрывают ключевое преимущество Muon: его правило обновления согласуется со структурой внешнего произведения линейных ассоциативных память, что позволяет более сбалансированно и эффективно обучать хвостовые классы в распределениях с тяжелыми хвостами по сравнению с Adam.
Создание агентов на основе больших языковых моделей, которые расширяют свои возможности за счет взаимодействия с внешними инструментами, представляет собой новую границу в исследованиях и приложениях искусственного интеллекта. В данной статье мы представляем InfoAgent — глубокого исследовательского агента, работающего на основе инновационного конвейера синтеза данных и скоординированных инструментов веб-поиска. Для создания сложных, труднодоступных запросов мы строим деревья сущностей и применяем выборку поддеревьев с фаззификацией сущностей, чтобы систематически повышать сложность вопросов. В отличие от предыдущих работ, которые в значительной степени полагаются на коммерческие инструменты поиска, мы разрабатываем собственную автономную поисковую инфраструктуру, повышая прозрачность среды агента и способствуя дальнейшему развитию его возможностей. Мы оцениваем эффективность нашего конвейера данных, измеряя среднее количество вызовов инструментов, необходимых для правильного ответа на вопрос, а также показываем, что наш агент демонстрирует лучшую производительность при использовании наших инструментов. Наш InfoAgent дообучается на основе модели Qwen3-14B с использованием двухэтапного подхода: начального контролируемого тонкого обучения для формирования поведения долгосрочного поиска, за которым следует обучение с подкреплением, значительно улучшающее использование инструментов на основе рассуждений. С помощью наших методов InfoAgent достигает точности 15,3% на BrowseComp, 29,2% на BrowseComp-ZH и 40,4% на Xbench-DS, превосходя предыдущие открытые глубокие исследовательские агенты, такие как WebSailor-72B и DeepDive-32B.
Онлайн-выравнивание (например, GRPO), как правило, демонстрирует более высокую производительность, чем офлайн-выравнивание (например, DPO), — но почему? Опираясь на теорию перспектив из поведенческой экономики, мы предлагаем объяснение, ориентированное на человека. Мы доказываем, что онлайн-выборка на основе текущей политики лучше аппроксимирует распределение, воспринимаемое человеком как то, что модель может генерировать, а ограничение в стиле PPO/GRPO, изначально введенное для стабилизации обучения, восстанавливает перцептивное искажение в восприятии вероятности человеком. В этом смысле PPO/GRPO уже действуют как перцептивные функции потерь. Наша теория также предполагает, что дихотомия онлайн/офлайн сама по себе не является ключевой для максимизации полезности для человека, поскольку тот же эффект можно достичь, выборочно обучаясь на любых данных таким образом, чтобы имитировать человеческое восприятие, вместо того чтобы ограничиваться онлайн-данными на основе текущей политики. Это позволит проводить пост-обучение быстрее, дешевле и гибче без ущерба для производительности. С этой целью мы предлагаем шаблон проектирования, который явно включает перцептивные искажения вероятности в целевые функции, такие как DPO/KTO/GRPO, создавая их "человеко-ориентированные" варианты. Удивительно, но мы обнаруживаем, что эти "человеко-ориентированные" варианты, даже при обучении на офлайн-данных вне текущей политики, могут соответствовать производительности своих онлайн-аналогов как на проверяемых, так и на непроверяемых задачах.
Обучение с подкреплением (Reinforcement Learning, RL) продемонстрировало впечатляющие успехи в улучшении способностей к рассуждению у крупных языковых моделей (Large Language Models, LLMs). Процессно-ориентированное обучение с подкреплением (Process-Supervised RL, PSRL) стало более эффективной парадигмой по сравнению с подходом, основанным на результатах. Однако существующие методы PSRL страдают от ограниченной эффективности исследования, как в плане выбора точек ветвления, так и в плане сэмплирования. В данной работе мы представляем новую PSRL-структуру (AttnRL), которая обеспечивает эффективное исследование для моделей рассуждения. Основываясь на предварительных наблюдениях, что шаги с высокими показателями внимания коррелируют с поведением рассуждения, мы предлагаем ветвиться из позиций с высокими значениями. Кроме того, мы разрабатываем адаптивную стратегию сэмплирования, учитывающую сложность задачи и исторический размер батча, что гарантирует ненулевые значения преимущества для всего обучающего батча. Для дальнейшего повышения эффективности сэмплирования мы создаем одношаговый конвейер обучения с использованием off-policy подхода для PSRL. Многочисленные эксперименты на нескольких сложных наборах данных для математического рассуждения показывают, что наш метод стабильно превосходит предыдущие подходы по производительности, а также по эффективности сэмплирования и обучения.
Мы представляем Voice Evaluation of Reasoning Ability (VERA) — эталонный набор данных для оценки способности к рассуждению в голосовых интерактивных системах в условиях реального времени и ограничений диалога. VERA включает 2,931 эпизода, адаптированных для голосового взаимодействия на основе существующих текстовых эталонов и организованных в пять направлений (Математика, Интернет, Наука, Длинный контекст, Факты). Каждый элемент адаптирован для речевого взаимодействия с сохранением сложности рассуждений. VERA позволяет проводить прямое сравнение текстовых и голосовых моделей внутри семейств и поддерживает анализ влияния архитектурных решений на надежность. Мы оценили 12 современных голосовых систем наряду с сильными текстовыми базовыми моделями и наблюдали значительные и устойчивые различия между модальностями: в соревновательной математике ведущая текстовая модель достигает точности 74,8%, тогда как ее голосовой аналог — всего 6,1%; в среднем по всем направлениям лучшие текстовые модели показывают точность 54,0% против 11,3% у голосовых. Анализ задержки и точности выявляет плато низкой задержки, где быстрые голосовые системы группируются вокруг ~10% точности, в то время как приближение к текстовой производительности требует жертвовать реальным временем взаимодействия. Диагностические эксперименты показывают, что распространенные методы улучшения недостаточны. Увеличение "времени на размышление" дает незначительный прирост; каскадная архитектура, разделяющая рассуждение и озвучивание, улучшает точность, но все же значительно уступает текстовым моделям и вносит характерные ошибки согласованности и закрепления. Анализ ошибок также выявляет различные паттерны сбоев у нативных потоковых, сквозных и каскадных архитектур. VERA предоставляет воспроизводимую тестовую среду и целенаправленную диагностику для архитектур, разделяющих мышление и речь, предлагая принципиальный способ измерения прогресса в создании голосовых ассистентов, которые одновременно беглы и надежны в рассуждениях.
Распространение открытых больших языковых моделей (LLM) способствует развитию динамичной экосистемы исследований и инноваций в области искусственного интеллекта (ИИ). Однако методы сотрудничества, используемые для разработки открытых LLM как до, так и после их публичного выпуска, до сих пор не были всесторонне изучены, что ограничивает наше понимание того, как инициируются, организуются и управляются проекты открытых LLM, а также какие возможности существуют для дальнейшего развития этой экосистемы. Мы восполняем этот пробел с помощью исследовательского анализа открытого сотрудничества на протяжении всего жизненного цикла разработки и повторного использования открытых LLM, основываясь на полуструктурированных интервью с разработчиками 14 открытых LLM из проектов на уровне сообществ, исследовательских институтов, стартапов и крупных технологических компаний Северной Америки, Европы, Африки и Азии. Мы делаем три ключевых вклада в исследования и практику. Во-первых, сотрудничество в проектах открытых LLM выходит далеко за рамки самих моделей, охватывая наборы данных, бенчмарки, открытые фреймворки, рейтинги, платформы для обмена знаниями и дискуссий, а также партнерства в области вычислительных ресурсов. Во-вторых, разработчики открытых LLM руководствуются разнообразными социальными, экономическими и технологическими мотивами, начиная от демократизации доступа к ИИ и продвижения открытой науки до создания региональных экосистем и расширения языкового представительства. В-третьих, исследуемые проекты открытых LLM демонстрируют пять различных организационных моделей, начиная от проектов отдельных компаний до проектов на уровне сообществ, спонсируемых некоммерческими организациями, которые различаются по степени централизации контроля и стратегиям вовлечения сообщества на протяжении жизненного цикла открытых LLM. Мы завершаем работу практическими рекомендациями для заинтересованных сторон, стремящихся поддержать глобальное сообщество в создании более открытого будущего для ИИ.
Решена ли базовая визуальная интерпретация в современных моделях визуального языка (VLMs)? Мы представляем VisualOverload — слегка отличающийся бенчмарк для визуального ответа на вопросы (VQA), состоящий из 2 720 пар вопрос-ответ с закрытыми эталонными ответами. В отличие от предыдущих наборов данных VQA, которые обычно сосредоточены на почти полном понимании изображения, VisualOverload бросает моделям вызов выполнять простые, не требующие знаний визуальные задачи в перегруженных сценах. Наш набор данных состоит из высококачественных сканирований картин из общественного достояния, насыщенных множеством фигур, действий и развивающихся сюжетов на фоне детализированных задних планов. Мы вручную аннотировали эти изображения вопросами из шести категорий задач, чтобы проверить глубокое понимание сцены. Мы предполагаем, что текущие бенчмарки переоценивают производительность VLMs, а кодирование и рассуждение над деталями по-прежнему остаются для них сложной задачей, особенно в перегруженных сценах. Действительно, мы наблюдаем, что даже лучшая модель (o3) из 37 протестированных достигает только 19,6% точности на самом сложном тестовом разделе и 69,5% точности на всех вопросах. Помимо тщательной оценки, мы дополняем наш бенчмарк анализом ошибок, который выявляет множество типов сбоев, включая отсутствие навыков счета, ошибки в распознавании текста (OCR) и поразительные логические несоответствия в сложных задачах. В целом, VisualOverload выявляет критический пробел в современных моделях зрения и предлагает важный ресурс для сообщества для разработки более совершенных моделей. Бенчмарк: http://paulgavrikov.github.io/visualoverload
Недавние методы обучения с подкреплением (RL) значительно улучшили способности крупных языковых моделей (LLM) к планированию, однако теоретическая основа их эффективности остается неясной. В данной работе мы исследуем преимущества и ограничения RL через доступную для анализа графовую абстракцию, сосредоточившись на методах градиента политики (PG) и Q-обучения. Наши теоретические анализы показывают, что тонкая настройка с учителем (SFT) может вводить ложные решения, основанные на совместной встречаемости, тогда как RL достигает корректного планирования в основном через исследование, подчеркивая роль исследования в обеспечении лучшей обобщаемости. Однако мы также показываем, что PG страдает от коллапса разнообразия, где разнообразие выходных данных уменьшается в процессе обучения и сохраняется даже после достижения идеальной точности. В отличие от этого, Q-обучение предоставляет два ключевых преимущества: обучение вне политики и сохранение разнообразия при сходимости. Мы также демонстрируем, что тщательное проектирование наград необходимо для предотвращения "взлома наград" в Q-обучении. Наконец, применяя наш подход к реальному бенчмарку планирования Blocksworld, мы подтверждаем, что эти поведенческие особенности проявляются на практике.
Мы исследуем задачу регрессии "код-метрика": предсказание числовых результатов выполнения кода, что является сложной задачей из-за открытой природы языков программирования. В то время как предыдущие методы полагались на трудоемкое и специфичное для предметной области проектирование признаков, мы показываем, что единая модель регрессии на основе языка (Regression Language Model, RLM) может одновременно предсказывать непосредственно из текста (i) объем памяти, занимаемый кодом на нескольких высокоуровневых языках, таких как Python и C++, (ii) задержку выполнения ядер Triton на GPU, а также (iii) точность и скорость обученных нейронных сетей, представленных в формате ONNX. В частности, относительно небольшая RLM с 300 миллионами параметров, инициализированная на основе T5Gemma, достигает значения Spearman-rank > 0.9 на решениях задач по конкурентному программированию из набора данных APPS, а единая модель достигает среднего значения Spearman-rank > 0.5 на 17 различных языках из набора данных CodeNet. Более того, RLM достигает наивысшего среднего значения Kendall-Tau, равного 0.46, на пяти классических пространствах проектирования нейронных архитектур (NAS), ранее доминируемых графовыми нейронными сетями, и одновременно предсказывает задержки архитектур на множестве аппаратных платформ.
Современные рекуррентные нейронные сети стали конкурентоспособной архитектурой для 3D-реконструкции благодаря их линейной временной сложности. Однако их производительность значительно ухудшается при применении за пределами длины обучающего контекста, что свидетельствует об ограниченной обобщающей способности по длине. В данной работе мы пересматриваем базовые модели 3D-реконструкции с точки зрения обучения на этапе тестирования, формулируя их проектирование как задачу онлайн-обучения. Основываясь на этом подходе, мы используем уверенность в согласованности между состоянием памяти и поступающими наблюдениями для вывода замкнутой формы скорости обучения для обновления памяти, чтобы сбалансировать сохранение исторической информации и адаптацию к новым наблюдениям. Это вмешательство, не требующее обучения и названное TTT3R, существенно улучшает обобщающую способность по длине, достигая двукратного улучшения в оценке глобальной позы по сравнению с базовыми методами, при этом работая со скоростью 20 кадров в секунду и используя всего 6 ГБ видеопамяти для обработки тысяч изображений. Код доступен по адресу: https://rover-xingyu.github.io/TTT3R.
Разработка автономных агентов, эффективно взаимодействующих с графическими пользовательскими интерфейсами (GUI), остается сложной и нерешенной задачей, особенно для компактных моделей, работающих непосредственно на устройстве. В данной статье мы представляем Ferret-UI Lite — компактного, сквозного агента для работы с GUI, который функционирует на различных платформах, включая мобильные устройства, веб и настольные системы. Используя методы, оптимизированные для разработки небольших моделей, мы создали наш 3B-агент Ferret-UI Lite, объединив разнообразные данные GUI из реальных и синтетических источников, улучшив производительность на этапе вывода с помощью цепочек рассуждений (chain-of-thought) и визуальных инструментов, а также применив обучение с подкреплением с разработанными наградами. Ferret-UI Lite демонстрирует конкурентоспособные результаты по сравнению с другими небольшими агентами для работы с GUI. В задачах локализации элементов интерфейса Ferret-UI Lite достигает показателей 91,6%, 53,3% и 61,2% на бенчмарках ScreenSpot-V2, ScreenSpot-Pro и OSWorld-G соответственно. В задачах навигации по GUI Ferret-UI Lite показывает успешность 28,0% на AndroidWorld и 19,8% на OSWorld. Мы делимся нашими методами и извлеченными уроками в процессе разработки компактных агентов для работы с GUI на устройстве.
Крупные языковые модели (LLM) используют многошаговое взаимодействие как базовую парадигму для выполнения сложных задач. Однако их производительность часто снижается в ходе продолжительных взаимодействий, поскольку они обычно обучаются на статических, одношаговых данных, что ограничивает их способность адаптироваться к обратной связи пользователя в реальном времени. Чтобы устранить это ограничение, мы сначала предлагаем новую парадигму: Адаптацию политики во время тестирования для многошаговых взаимодействий (T2PAM), которая использует обратную связь пользователя из текущего взаимодействия в качестве сигнала вознаграждения для оценки скрытой оптимальной политики, соответствующей предпочтениям пользователя, а затем обновляет небольшое подмножество параметров, чтобы направить модель к этой политике, что в конечном итоге позволяет эффективно корректировать модель в ходе диалога. Затем мы представляем Однократную адаптацию с опорой на оптимум (ROSA), легковесный алгоритм, который реализует T2PAM. ROSA направляет параметры модели к теоретически оптимальной политике за один эффективный шаг обновления, избегая затратной итеративной оптимизации на основе градиентов и минимизируя вычислительные затраты. Мы предоставляем строгий теоретический анализ, гарантирующий, что политика ROSA сходится к предпочтениям пользователя с увеличением числа взаимодействий. Многочисленные эксперименты на сложных бенчмарках демонстрируют, что ROSA достигает значительных улучшений как в эффективности выполнения задач, так и в их результативности.
Современные методы поиска ограничены стандартными приложениями RAG для запросов и документов. В данной статье мы предлагаем новую методику расширения кода и индекса для прогнозирования необходимых API, что напрямую обеспечивает высококачественную сквозную генерацию кода для автодополнения и агентных приложений ИИ. Мы решаем проблему утечек API в текущих наборах данных для бенчмаркинга кода, представляя новый набор данных, созданный на основе реальных Script Includes из ServiceNow, которые отражают сложность неясного намерения использования API в коде. Наши метрики оценки показывают, что этот метод достигает точности извлечения в топ-40 на уровне 87,86%, предоставляя критически важный контекст с API, необходимый для успешной последующей генерации кода. Для обеспечения прогнозирования в реальном времени мы разработали комплексный посттренировочный конвейер, который оптимизирует компактный реранкер объемом 0,6 млрд параметров за счет генерации синтетических наборов данных, контролируемого тонкого настройки и обучения с подкреплением. Этот подход позволяет нашему компактному реранкеру превосходить гораздо более крупную модель объемом 8 млрд параметров, сохраняя при этом снижение задержки в 2,5 раза, эффективно решая нюансы корпоративного кода без вычислительных затрат, характерных для более крупных моделей.
Крупные аудио-языковые модели быстро развиваются, однако большинство оценок сосредоточено на речи или глобально доступных звуках, игнорируя культурно уникальные сигналы. Этот пробел поднимает важный вопрос: могут ли современные модели обобщать локализованные, не семантические звуки, которые сообщества мгновенно распознают, но которые остаются незаметными для посторонних? Для решения этой проблемы мы представляем TAU (Taiwan Audio Understanding) — эталонный набор повседневных тайваньских "звуковых маркеров". TAU создан с использованием конвейера, сочетающего курируемые источники, ручное редактирование и генерацию вопросов с помощью языковых моделей, что позволило получить 702 аудиоклипа и 1 794 задания с множественным выбором, которые невозможно решить только на основе текстовой расшифровки. Эксперименты показывают, что современные LALM, включая Gemini 2.5 и Qwen2-Audio, значительно уступают местным людям. TAU демонстрирует необходимость локализованных эталонов для выявления культурных слепых зон, обеспечения более справедливой мультимодальной оценки и гарантии того, что модели будут служить сообществам за пределами глобального мейнстрима.
Трансформерные модели значительно продвинули прогнозирование временных рядов, при этом стратегии ввода данных на основе патчей обеспечивают эффективность и улучшенное моделирование на длительных горизонтах. Однако существующие подходы полагаются на временно-агностическое построение патчей, где произвольные начальные позиции и фиксированные длины нарушают временную согласованность, разделяя естественные переходы на границах. Такое наивное сегментирование часто разрушает краткосрочные зависимости и ослабляет обучение представлений. В ответ на это мы предлагаем EntroPE (Entropy-Guided Dynamic Patch Encoder), новую, временно-информированную структуру, которая динамически обнаруживает точки перехода с помощью условной энтропии и динамически размещает границы патчей. Это сохраняет временную структуру, сохраняя при этом вычислительные преимущества патчинга. EntroPE состоит из двух ключевых модулей: Entropy-based Dynamic Patcher (EDP), который применяет информационно-теоретические критерии для определения естественных временных сдвигов и установления границ патчей, и Adaptive Patch Encoder (APE), который использует пулинг и кросс-внимание для захвата внутрипатчевых зависимостей и создания фиксированных латентных представлений. Эти эмбеддинги затем обрабатываются глобальным трансформером для моделирования межпатчевой динамики. Эксперименты на бенчмарках долгосрочного прогнозирования демонстрируют, что EntroPE улучшает как точность, так и эффективность, устанавливая динамический патчинг, управляемый энтропией, как многообещающую новую парадигму для моделирования временных рядов. Код доступен по адресу: https://github.com/Sachithx/EntroPE.
jina-reranker-v3 представляет собой мультиязычный реранкер документов с 0.6 миллиардами параметров, который вводит новый подход под названием "последнее, но не позднее взаимодействие". В отличие от моделей с поздним взаимодействием, таких как ColBERT, которые выполняют раздельное кодирование с последующим многомерным сопоставлением, наш подход реализует причинное самовнимание между запросом и документами в пределах одного контекстного окна, что позволяет осуществлять богатое кросс-документное взаимодействие перед извлечением контекстных эмбеддингов из последнего токена каждого документа. Эта компактная архитектура достигает наилучших показателей на наборе данных BEIR с 61.94 nDCG@10, будучи при этом в десять раз меньше, чем генеративные реранкеры с поточечным ранжированием.
Крупные языковые модели (LLM) всё чаще исследуются как нейронные базы знаний для поддержки задач, требующих интенсивного использования знаний, таких как ответы на вопросы и проверка фактов. Однако структурная организация их знаний остаётся малоизученной. Вдохновлённые открытиями в когнитивной нейронауке, такими как семантическая кластеризация и прайминг, где знание одного факта увеличивает вероятность вспоминания связанных фактов, мы исследуем аналогичный паттерн гомофилии знаний в LLM. Для этого мы представляем знания LLM в виде графа, проверяя их на уровне триплетов и сущностей. Затем мы анализируем связь между уровнем знаний о сущности и её соседями, обнаруживая, что LLM склонны обладать схожим уровнем знаний о сущностях, расположенных ближе в графе. Мотивированные этим принципом гомофилии, мы предлагаем модель регрессии на основе графовых нейронных сетей (GNN) для оценки уровня знаний о сущностях в триплетах, используя оценки их соседей. Предсказанный уровень знаний позволяет нам приоритезировать проверку менее известных триплетов, тем самым максимизируя охват знаний при том же бюджете на разметку. Это не только повышает эффективность активной разметки для тонкой настройки с целью внедрения знаний в LLM, но и улучшает поиск многошаговых путей в задачах ответов на вопросы, требующих сложных рассуждений.
Диффузионные модели больших языков (dLLM), несмотря на их многообещающую производительность, всё ещё страдают от низкой эффективности вывода. Это связано с тем, что dLLM полагаются на двунаправленное внимание и не могут напрямую использовать стандартный кэш ключей и значений (KV), как это делают авторегрессивные модели (ARM). Для решения этой проблемы мы представляем Dual Adaptive Cache (d²Cache) — это не требующий обучения приближённый фреймворк кэша KV для ускорения вывода dLLM. d²Cache использует двухэтапную стратегию тонкого отбора для идентификации токенов и адаптивного обновления их состояний KV на каждом шаге декодирования, одновременно кэшируя состояния KV оставшихся токенов для повторного использования. Кроме того, d²Cache естественным образом предлагает более надёжную альтернативу декодирования, которая может обеспечить квази-последовательное генерацию слева направо и смягчить преждевременную избыточную уверенность в токенах в конце последовательности. Обширные экспериментальные результаты на двух репрезентативных dLLM (а именно, LLaDA и Dream) демонстрируют, что d²Cache не только достигает значительного ускорения вывода, но и обеспечивает последовательное улучшение качества генерации. Код доступен по адресу https://github.com/Kamichanw/d2Cache.
Автоматическая компиляция проектов с открытым исходным кодом (OSS) является важной, трудоемкой и сложной задачей, что делает её отличным вызовом для агентов на основе больших языковых моделей (LLM). Существующие методы полагаются на вручную составленные правила и рабочие процессы, которые не могут адаптироваться к OSS, требующим индивидуальной настройки или подготовки окружения. Недавние попытки использования больших языковых моделей (LLM) основывались на выборочной оценке подмножества высоко оцененных OSS, что недооценивает реальные сложности компиляции OSS. На практике инструкции по компиляции часто отсутствуют, зависимости не документированы, а успешная сборка может даже требовать исправления исходных файлов или изменения скриптов сборки. Мы предлагаем более сложный и реалистичный бенчмарк, BUILD-BENCH, включающий OSS, которые более разнообразны по качеству, масштабу и характеристикам. Кроме того, мы предлагаем сильный базовый агент на основе LLM, OSS-BUILD-AGENT, эффективную систему с улучшенным модулем извлечения инструкций по сборке, которая демонстрирует передовые результаты на BUILD-BENCH и адаптируется к разнородным характеристикам OSS. Мы также предоставляем детальный анализ различных вариантов проектирования методов компиляции и их влияния на всю задачу, предлагая идеи для руководства будущими достижениями. Мы считаем, что производительность на BUILD-BENCH может достоверно отражать способность агента справляться с компиляцией как сложной задачей программной инженерии, и, таким образом, наш бенчмарк будет стимулировать инновации, оказывая значительное влияние на последующие приложения в областях разработки программного обеспечения и безопасности программного обеспечения.
Поставщики крупных языковых моделей (LLM) гордятся большими числами, обозначающими максимальные размеры контекстного окна. Чтобы проверить практическое использование контекстных окон, мы 1) определяем концепцию максимального эффективного контекстного окна, 2) формулируем метод тестирования эффективности контекстного окна для различных размеров и типов задач и 3) создаем стандартизированный способ сравнения эффективности моделей для постепенно увеличивающихся размеров контекстного окна с целью обнаружения точки сбоя. Мы собрали сотни тысяч точек данных для нескольких моделей и обнаружили значительные различия между заявленным размером Максимального Контекстного Окна (MCW) и размером Максимального Эффективного Контекстного Окна (MECW). Наши результаты показывают, что MECW не только существенно отличается от MCW, но и изменяется в зависимости от типа задачи. Некоторые передовые модели в нашей тестовой группе давали сбои уже при 100 токенах в контексте; у большинства наблюдалось значительное снижение точности при 1000 токенах в контексте. Все модели значительно не дотягивали до своего Максимального Контекстного Окна, иногда на целых 99 процентов. Наши данные показывают, что Максимальное Эффективное Контекстное Окно изменяется в зависимости от типа предоставленной задачи, что дает четкие и практические рекомендации по улучшению точности моделей и снижению частоты их "галлюцинаций".
Существующие мультимодальные модели генерации аудио часто не обеспечивают точного контроля со стороны пользователя, что ограничивает их применимость в профессиональных процессах создания звуковых эффектов (Foley). В частности, эти модели сосредоточены на видео в целом и не предоставляют точных методов для выделения конкретного объекта в сцене, генерируя ненужные фоновые звуки или фокусируясь на неправильных объектах. Для устранения этого пробела мы представляем новую задачу генерации аудио с учетом сегментации объектов в видео, которая явно связывает синтез звука с картами сегментации на уровне объектов. Мы представляем SAGANet, новую мультимодальную генеративную модель, которая обеспечивает контролируемую генерацию аудио, используя визуальные маски сегментации вместе с видео и текстовыми подсказками. Наша модель предоставляет пользователям детализированный и визуально локализованный контроль над генерацией аудио. Для поддержки этой задачи и дальнейших исследований в области создания звуковых эффектов с учетом сегментации мы предлагаем Segmented Music Solos — эталонный набор данных с видео исполнения музыкальных инструментов, содержащий информацию о сегментации. Наш метод демонстрирует значительные улучшения по сравнению с современными передовыми методами и устанавливает новый стандарт для контролируемого синтеза звуковых эффектов высокой точности. Код, примеры и набор данных Segmented Music Solos доступны по адресу https://saganet.notion.site.
Хотя крупные языковые модели (LLM) с возможностями логического рассуждения быстро прогрессируют в решении задач школьных математических олимпиад и программирования, могут ли они эффективно рассуждать в сложных, открытых задачах, встречающихся на переднем крае физических исследований? И, что особенно важно, с какими типами задач рассуждений физики хотели бы, чтобы LLM помогали? Чтобы ответить на эти вопросы, мы представляем CritPt (Complex Research using Integrated Thinking - Physics Test, произносится как "критическая точка") — первый бенчмарк, разработанный для тестирования LLM на неопубликованных, исследовательских задачах, охватывающих широкий спектр современных областей физики, включая физику конденсированного состояния, квантовую физику, атомную, молекулярную и оптическую физику, астрофизику, физику высоких энергий, математическую физику, статистическую физику, ядерную физику, нелинейную динамику, гидродинамику и биофизику. CritPt состоит из 71 составной исследовательской задачи, разработанной для моделирования полноценных исследовательских проектов начального уровня, которые также разбиты на 190 более простых контрольных задач для получения более детализированных данных. Все задачи созданы более чем 50 активными исследователями в области физики на основе их собственных исследований. Каждая задача тщательно отобрана, чтобы иметь устойчивый к угадыванию и проверяемый машиной ответ, и оценивается с помощью автоматизированной системы проверки, адаптированной для сложных физических форматов вывода. Мы обнаружили, что хотя современные LLM демонстрируют первые успехи в решении изолированных контрольных задач, они пока далеки от надежного решения полноценных исследовательских задач: лучшая средняя точность среди базовых моделей составляет всего 4,0%, достигнутая GPT-5 (высокий уровень), и умеренно повышается до около 10% при использовании инструментов программирования. Благодаря реалистичной, но стандартизированной оценке, предлагаемой CritPt, мы подчеркиваем значительный разрыв между текущими возможностями моделей и реальными потребностями физических исследований, предлагая основу для разработки научно обоснованных инструментов ИИ.
Современные алгоритмы онлайн-обучения с подкреплением (RL), такие как GRPO, имеют ключевое ограничение в рассуждениях больших языковых моделей (LLM): они не могут обучаться на задачах, которые являются "нерешаемыми" для модели. Другими словами, они могут улучшать производительность только на задачах, где модель способна исследовать правильный ответ. В результате "верхний предел" модели остается неизменным после обучения с подкреплением, хотя вероятность решения более простых, решаемых задач может увеличиться. Эти сложные примеры не могут вносить вклад в обучение, так как ни один из прогонов не приносит наград и, следовательно, не создает градиентов. Чтобы раскрыть возможность обучения на таких сложных примерах, мы предлагаем NuRL — метод "подталкивания", который направлен на повышение верхней границы рассуждений LLM с использованием самостоятельно генерируемых подсказок, то есть абстрактных указаний, которые помогают снизить сложность задачи для модели. При наличии вопроса и его правильного ответа модель генерирует цепочку рассуждений (CoT), а затем создает подсказку, содержащую ключевые знания, необходимые для решения задачи. Во время обучения мы генерируем G прогонов из базовой политики и используем процент успешных решений, чтобы определить, следует ли внедрять подсказку. Для сложных примеров с 0% успешных решений мы внедряем подсказку и повторно генерируем новую партию траекторий. Это дает два преимущества: (1) подсказка повышает процент успешных решений (с 0% до ненулевого значения), тем самым вводя обучающие сигналы для ранее нерешаемых примеров, и (2) подсказки генерируются самостоятельно, что избегает смещения распределения и не зависит от внешних моделей. NuRL демонстрирует устойчивые улучшения на 6 бенчмарках и 3 моделях, оставаясь дополнением к масштабированию на этапе тестирования. Примечательно, что NuRL может повысить верхний предел модели, тогда как GRPO оставляет pass@1024 неизменным по сравнению с базовой моделью. Кроме того, мы представляем систематическое исследование того, что делает подсказку эффективной и когда она наиболее полезна. Интересно, что лучшие подсказки являются абстрактными и высокоуровневыми, и они наиболее полезны, когда применяются только при необходимости и после того, как GRPO достиг сходимости.
Дизайнеры создают и редактируют графические проекты в слоевом представлении, однако редактирование на основе слоев становится невозможным после композиции в растровое изображение. В данной работе мы предлагаем LayerD — метод декомпозиции растровых графических проектов на слои для повторного редактирования в творческом процессе. LayerD решает задачу декомпозиции путем итеративного извлечения незакрытых передних слоев. Мы предлагаем простой, но эффективный подход к уточнению, основанный на предположении, что слои в графических проектах часто имеют однородный внешний вид. Поскольку задача декомпозиции является некорректно поставленной, а эталонная структура слоев может быть ненадежной, мы разрабатываем метрику качества, учитывающую эту сложность. В экспериментах мы показываем, что LayerD успешно достигает высококачественной декомпозиции и превосходит базовые методы. Мы также демонстрируем использование LayerD в сочетании с современными генераторами изображений и редактированием на основе слоев.
Очистка от атак с использованием диффузионных моделей стала перспективной стратегией защиты, однако существующие методы обычно полагаются на равномерное добавление шума, которое без разбора искажает все частоты, разрушая семантические структуры и снижая устойчивость. Наше эмпирическое исследование показывает, что адверсарные возмущения распределены неравномерно: они преимущественно сосредоточены в высокочастотных областях, с неоднородными паттернами интенсивности, которые варьируются в зависимости от частот и типов атак. Вдохновленные этим наблюдением, мы представляем MANI-Pure — магнитудно-адаптивную структуру очистки, которая использует спектр амплитуд входных данных для управления процессом очистки. Вместо добавления однородного шума MANI-Pure адаптивно применяет неоднородный, частотно-ориентированный шум, эффективно подавляя адверсарные возмущения в уязвимых высокочастотных, низкоамплитудных полосах, сохраняя при этом семантически важный низкочастотный контент. Многочисленные эксперименты на CIFAR-10 и ImageNet-1K подтверждают эффективность MANI-Pure. Метод сокращает разрыв в точности на чистых данных до 0.59 по сравнению с исходным классификатором, повышая устойчивую точность на 2.15, и достигает наивысшей устойчивой точности в рейтинге RobustBench, превосходя предыдущий метод, считавшийся передовым.
Современный искусственный интеллект основан на глубоких искусственных нейронных сетях (НС). По состоянию на 2025 год, наиболее цитируемой научной статьей XXI века является работа по глубокому остаточному обучению с использованием остаточных связей. Кто изобрел это? Мы представляем хронологию эволюции глубокого остаточного обучения.
Многоагентные системы (MAS) становятся все более способными решать сложные задачи реального мира, однако их зависимость от межагентной координации, использования инструментов и долгосрочного планирования делает распознавание ошибок особенно сложным. Незначительные ошибки могут распространяться между агентами, перерастая в сбои задач, при этом создавая длинные, переплетенные траектории выполнения, что накладывает значительные затраты на отладку и анализ как для разработчиков, так и для автоматизированных систем. Наше ключевое наблюдение заключается в том, что, несмотря на поверхностные различия в траекториях сбоев (например, в логах), ошибки в MAS часто повторяются с похожими структурными паттернами. В данной статье представлен CORRECT — первый легковесный, не требующий обучения фреймворк, который использует онлайн-кэш сжатых схем ошибок для распознавания и передачи знаний о структурах сбоев при обработке новых запросов. Такой кэшированный повтор позволяет языковым моделям (LLM) выполнять целенаправленную локализацию ошибок во время вывода, избегая необходимости дорогостоящего переобучения и адаптируясь к динамическим развертываниям MAS за доли секунды. Для поддержки строгого изучения в этой области мы также представляем CORRECT-Error — крупномасштабный набор данных, содержащий более 2000 аннотированных траекторий, собранных с помощью инновационного конвейера внедрения ошибок, основанного на реальных распределениях и дополнительно проверенного с помощью человеческой оценки для обеспечения соответствия естественным паттернам сбоев. Эксперименты в семи различных приложениях MAS показывают, что CORRECT улучшает локализацию ошибок на уровне шагов до 19,8% по сравнению с существующими достижениями при практически нулевых накладных расходах, существенно сокращая разрыв между автоматизированным и человеческим уровнем распознавания ошибок.
Фундаментальные модели временных рядов (TSFMs) обеспечивают мощное прогнозирование с нулевым обучением благодаря масштабному предварительному обучению, однако тонкая настройка остается критически важной для повышения производительности в областях с ограниченными публичными данными. С увеличением числа TSFMs эффективное определение наилучшей модели для последующей тонкой настройки становится все более сложной задачей. В данной работе мы представляем TimeTic — фреймворк для оценки переносимости, который переосмысливает выбор модели как задачу обучения в контексте: на основе наблюдений за известными (исходными) наборами данных он предсказывает, как TSFM будет работать после тонкой настройки на целевом наборе данных. TimeTic гибко организует наблюдаемые отношения между моделями и данными как контекстную информацию, что позволяет ему адаптироваться к различным сценариям тестирования. Используя естественную табличную структуру, образованную мета-признаками наборов данных, характеристиками моделей и производительностью после тонкой настройки, мы применяем табличные фундаментальные модели в качестве обучаемых в контексте. Мы также вводим новую характеристику модели, основанную на эволюции энтропии по слоям модели, что позволяет улавливать различия в пространстве вложений и обеспечивает обобщение TimeTic на произвольные наборы моделей. Мы создаем всеобъемлющий бенчмарк для оценки переносимости, включающий 10 наборов данных, 10 фундаментальных моделей и 3 задачи прогнозирования. На этом бенчмарке оценка TimeTic демонстрирует сильное соответствие фактической производительности после тонкой настройки для ранее невидимых наборов данных, достигая среднего коэффициента ранговой корреляции около 0,6 и улучшения на 30% по сравнению с использованием производительности с нулевым обучением в качестве оценки переносимости.
Водяные знаки для больших языковых моделей (LLM) внедряют статистический сигнал в процессе генерации текста, что позволяет обнаруживать текст, созданный моделью. Хотя водяные знаки доказали свою эффективность в благоприятных условиях, их устойчивость к попыткам обхода враждебными методами остается спорной. Для углубленного понимания и оценки таких уязвимостей мы предлагаем атаку на основе инверсии смещения (BIRA), которая теоретически обоснована и не зависит от конкретной модели. BIRA ослабляет сигнал водяного знака, подавляя логиты вероятных токенов с водяными знаками в процессе переписывания текста с использованием LLM, без знания о лежащей в основе схеме водяных знаков. Для современных методов водяных знаков BIRA достигает более 99% успешного обхода, сохраняя при этом семантическое содержание исходного текста. Помимо демонстрации атаки, наши результаты выявляют системную уязвимость, подчеркивая необходимость стресс-тестирования и разработки устойчивых защитных механизмов.
Мы представляем Сверточный Трансформер для Множеств (Convolutional Set Transformer, CST) — новую нейронную архитектуру, разработанную для обработки наборов изображений произвольной мощности, которые визуально разнородны, но обладают общими высокоуровневыми семантическими признаками, такими как общая категория, сцена или концепция. Существующие сети для обработки множеств, например, Deep Sets и Set Transformer, ограничены векторными входными данными и не могут напрямую работать с трехмерными тензорами изображений. В результате их необходимо комбинировать с экстрактором признаков, обычно сверточной нейронной сетью (CNN), которая кодирует изображения в эмбеддинги, прежде чем сеть для обработки множеств сможет моделировать взаимосвязи между изображениями. В отличие от них, CST работает непосредственно с трехмерными тензорами изображений, одновременно выполняя извлечение признаков и контекстное моделирование, что позволяет достичь синергии между этими процессами. Такая конструкция обеспечивает превосходную производительность в задачах, таких как классификация множеств и обнаружение аномалий в множествах, а также обеспечивает совместимость с методами объяснимости CNN, такими как Grad-CAM, в отличие от конкурирующих подходов, которые остаются непрозрачными. Наконец, мы показываем, что CST можно предварительно обучать на крупномасштабных наборах данных, а затем адаптировать к новым доменам и задачам с помощью стандартных схем трансферного обучения. Для поддержки дальнейших исследований мы публикуем CST-15 — предварительно обученную на ImageNet архитектуру CST (https://github.com/chinefed/convolutional-set-transformer).
Последние достижения в области генерации видео позволили создавать высококачественные видеоролики на основе пользовательских запросов. Однако существующие модели и тестовые наборы не учитывают сложность и требования профессиональной видеогенерации. Для решения этой задачи мы представляем Stable Cinemetrics — структурированную систему оценки, которая формализует элементы кинопроизводства в виде четырех иерархических таксономий: Сцена, Событие, Освещение и Камера. Вместе эти таксономии определяют 76 детализированных контрольных узлов, основанных на отраслевых практиках. Используя эти таксономии, мы создаем набор тестовых запросов, соответствующих профессиональным сценариям, и разрабатываем автоматизированный конвейер для категоризации запросов и генерации вопросов, что позволяет независимо оценивать каждое измерение контроля. Мы проводим масштабное исследование с участием более 80 профессионалов киноиндустрии, охватывающее более 10 моделей и 20 тысяч видеороликов. Наш анализ, как общий, так и детализированный, показывает, что даже самые современные модели демонстрируют значительные пробелы, особенно в управлении Событиями и Камерой. Для масштабируемой оценки мы обучаем автоматический оценщик — модель, объединяющую зрение и язык, которая согласуется с экспертными аннотациями и превосходит существующие базовые решения с нулевым обучением. SCINE — это первый подход, который помещает профессиональную видеогенерацию в контекст моделей генерации видео, вводя таксономии, ориентированные на кинематографические элементы управления, и поддерживая их структурированными конвейерами оценки и детальными анализами для направления будущих исследований.
Существующие подходы к оценке уровня владения навыками часто полагаются на "черные ящики" видеоклассификаторов, игнорируя контекст с нескольких точек зрения и не обеспечивая объяснимости. Мы представляем ProfVLM — компактную модель, объединяющую зрение и язык, которая переформулирует эту задачу как генеративное рассуждение: она одновременно предсказывает уровень навыка и генерирует экспертные комментарии на основе эгоцентричных и экзоцентричных видео. Ключевым элементом нашего метода является AttentiveGatedProjector, который динамически объединяет признаки с нескольких точек зрения, проецируемые из замороженной основы TimeSformer в языковую модель, настроенную для генерации обратной связи. Обучаясь на данных EgoExo4D с экспертной аннотацией, ProfVLM превосходит современные методы, используя до 20 раз меньше параметров и сокращая время обучения до 60%. Наш подход не только обеспечивает превосходную точность в различных видах деятельности, но и выдает критические замечания на естественном языке, соответствующие производительности, предлагая прозрачное обоснование. Эти результаты подчеркивают генеративное моделирование на основе зрения и языка как мощное новое направление для оценки навыков.
Крупные языковые модели демонстрируют выдающиеся результаты с использованием обучения с подкреплением (RL), но для полного раскрытия этого потенциала необходим промежуточный этап обучения. Эффективный промежуточный этап должен выявить компактный набор полезных действий и обеспечить их быстрое выбор через онлайн RL. Мы формализуем эту интуицию, представляя первый теоретический результат о том, как промежуточное обучение влияет на последующее: он характеризует подпространство действий, которое минимизирует как ошибку аппроксимации значения, возникающую при сокращении, так и ошибку RL в ходе последующего планирования. Наш анализ выявляет два ключевых фактора эффективности промежуточного обучения: эффективность сокращения, которая формирует априорное распределение начальной политики RL, и её влияние на сходимость RL, которое определяет степень, в которой эту политику можно улучшить с помощью онлайн-взаимодействий. Эти результаты показывают, что промежуточное обучение наиболее эффективно, когда пространство решений компактно, а эффективный горизонт короткий, подчеркивая важность работы в пространстве абстракций действий, а не примитивных действий. Опираясь на эти идеи, мы предлагаем Reasoning as Action Abstractions (RA3), масштабируемый алгоритм промежуточного обучения. В частности, мы выводим последовательную вариационную нижнюю границу и оптимизируем её, итеративно обнаруживая временно-согласованные латентные структуры с помощью RL, с последующей тонкой настройкой на бутстраппированных данных. Эксперименты на задачах генерации кода демонстрируют эффективность нашего подхода. На нескольких базовых моделях RA3 улучшает среднюю производительность на HumanEval и MBPP на 8 и 4 пункта по сравнению с базовой моделью и базовым методом предсказания следующего токена. Кроме того, RA3 достигает более быстрой сходимости и более высокой асимптотической производительности в RLVR на HumanEval+, MBPP+, LiveCodeBench и Codeforces.
Недавние эмпирические исследования изучили идею продолжения обучения модели во время тестирования для конкретной задачи, известную как обучение во время тестирования (Test-Time Training, TTT), и обнаружили, что это приводит к значительному улучшению производительности. Однако понимание того, почему и когда TTT эффективен, остается ограниченным. Ранние объяснения в основном сосредотачивались на наблюдении, что TTT может быть полезен при адаптации к данным, выходящим за пределы распределения, или при использовании привилегированных данных. Однако растущий масштаб базовых моделей, при котором большинство тестовых данных остаются в пределах распределения, ставит под сомнение эти объяснения. Мы предполагаем, что базовые модели остаются глобально недоопределенными, а TTT предоставляет механизм специализации после обобщения, сосредотачивая ресурсы на концепциях, релевантных тестовой задаче. В частности, в рамках гипотезы линейного представления мы предлагаем модель, в которой TTT достигает существенно меньшей ошибки на тестовых данных в пределах распределения по сравнению с глобальным обучением. Мы эмпирически подтверждаем ключевые предположения нашей модели, обучая разреженный автокодировщик на ImageNet, показывая, что семантически связанные точки данных объясняются лишь несколькими общими концепциями. Наконец, мы проводим масштабные исследования на задачах обработки изображений и текста, которые подтверждают практические последствия нашей модели, выявляя режимы, в которых специализация наиболее эффективна.
В направлении интеллектуального редактирования изображений удаление объектов должно устранять как сам целевой объект, так и его причинные визуальные артефакты, такие как тени и отражения. Однако существующие методы, основанные на внешнем виде изображений, либо строго следуют обучению с выравниванием по маске и не способны удалить эти причинные эффекты, которые явно не замаскированы, либо используют слабо выровненные по маске стратегии, которые лишены управляемости и могут непреднамеренно перезатереть другие объекты. Мы выявляем, что эти ограничения возникают из-за игнорирования причинной связи между геометрическим присутствием объекта и его визуальными эффектами. Для устранения этого ограничения мы предлагаем геометрически осознанную двухэтапную структуру, которая разделяет удаление объекта на (1) удаление геометрии и (2) рендеринг внешнего вида. На первом этапе мы удаляем объект непосредственно из геометрии (например, глубины) с использованием строго выровненного по маске контроля, что позволяет осуществлять структурированное редактирование с сильными геометрическими ограничениями. На втором этапе мы рендерим фотореалистичное RGB-изображение, основываясь на обновленной геометрии, где причинные визуальные эффекты учитываются неявно как результат измененной 3D-геометрии. Для управления обучением на этапе удаления геометрии мы вводим предпочтение-ориентированную цель, основанную на парах положительных и отрицательных образцов, что побуждает модель удалять объекты вместе с их причинными визуальными артефактами, избегая при этом новых структурных вставок. Многочисленные эксперименты демонстрируют, что наш метод достигает передовых результатов в удалении как объектов, так и связанных с ними артефактов на двух популярных тестовых наборах. Код доступен по адресу https://github.com/buxiangzhiren/GeoRemover.