Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы предлагаем новую парадигму обучения, названную Chain-of-Model (CoM), которая интегрирует причинно-следственные связи в скрытые состояния каждого слоя в виде цепочки, что обеспечивает значительную эффективность масштабирования при обучении модели и гибкость при её развертывании. Мы вводим концепцию Chain-of-Representation (CoR), которая формулирует скрытые состояния на каждом слое как комбинацию нескольких подпредставлений (т.е. цепочек) на уровне скрытой размерности. На каждом слое каждая цепочка из выходных представлений может видеть только все предшествующие ей цепочки во входных представлениях. В результате модель, построенная на основе CoM, может постепенно увеличивать свой размер, добавляя цепочки на основе предыдущих моделей (т.е. цепочек), и предоставлять несколько подмоделей разного размера для гибкого вывода, используя разное количество цепочек. На основе этого принципа мы разработали Chain-of-Language-Model (CoLM), которая интегрирует идею CoM в каждый слой архитектуры Transformer. На основе CoLM мы также представляем CoLM-Air, вводя механизм совместного использования ключей и значений (KV), при котором все ключи и значения вычисляются в первой цепочке, а затем используются во всех остальных. Этот дизайн демонстрирует дополнительную расширяемость, такую как возможность бесшовного переключения языковых моделей, ускорение предварительного заполнения и т.д. Экспериментальные результаты показывают, что наше семейство моделей CoLM может достичь сопоставимой производительности с классическим Transformer, одновременно обеспечивая большую гибкость, такую как постепенное масштабирование для повышения эффективности обучения и предоставление нескольких моделей разного размера для гибкого вывода, открывая новые пути для создания языковых моделей. Наш код будет опубликован в будущем по адресу: https://github.com/microsoft/CoLM.
В последнее время крупные модели рассуждений достигли впечатляющих результатов в различных задачах благодаря использованию глубокого, человекообразного мышления. Однако длительный процесс мышления существенно увеличивает вычислительные затраты, делая эффективность критическим узким местом. В данной работе мы сначала показываем, что подход NoThinking, который побуждает модель рассуждений пропускать процесс мышления и напрямую генерировать окончательное решение, является более предпочтительным для относительно простых задач с точки зрения как производительности, так и эффективности. Вдохновленные этим, мы предлагаем AdaptThink — новый алгоритм обучения с подкреплением, который учит модели рассуждений адаптивно выбирать оптимальный режим мышления в зависимости от сложности задачи. В частности, AdaptThink включает два ключевых компонента: (1) ограниченную целевую функцию оптимизации, которая побуждает модель выбирать NoThinking, сохраняя при этом общую производительность; (2) стратегию важности выборки, которая балансирует примеры с использованием Thinking и NoThinking в процессе обучения на основе текущей политики, что позволяет начать обучение с нуля и исследовать оба режима мышления на протяжении всего процесса обучения. Наши эксперименты показывают, что AdaptThink значительно снижает вычислительные затраты, одновременно улучшая производительность. В частности, на трех математических наборах данных AdaptThink сокращает среднюю длину ответа модели DeepSeek-R1-Distill-Qwen-1.5B на 53% и повышает её точность на 2.4%, что подчеркивает перспективность адаптивного выбора режима мышления для оптимизации баланса между качеством рассуждений и эффективностью. Наши коды и модели доступны по адресу https://github.com/THU-KEG/AdaptThink.
Крупные языковые модели (LLM) демонстрируют впечатляющие возможности, но часто сталкиваются с трудностями при выполнении задач, требующих сложных рассуждений. Хотя метод Chain-of-Thought (CoT) значительно улучшает рассуждения, он без разбора генерирует длинные цепочки рассуждений для всех запросов, что приводит к значительным вычислительным затратам и неэффективности, особенно для более простых входных данных. Чтобы решить эту важную проблему, мы представляем AdaCoT (Adaptive Chain-of-Thought) — новый фреймворк, позволяющий LLM адаптивно решать, когда использовать CoT. AdaCoT формулирует адаптивное рассуждение как задачу оптимизации по Парето, которая стремится сбалансировать производительность модели с затратами, связанными с использованием CoT (как частотой, так и вычислительными издержками). Мы предлагаем метод, основанный на обучении с подкреплением (RL), в частности, использующий Proximal Policy Optimization (PPO), для динамического управления границей принятия решений о запуске CoT путем регулирования штрафных коэффициентов, что позволяет модели определять необходимость CoT на основе неявной сложности запроса. Ключевым техническим вкладом является Selective Loss Masking (SLM), разработанный для предотвращения коллапса границы принятия решений в ходе многоэтапного обучения RL, обеспечивая устойчивое и стабильное адаптивное срабатывание. Экспериментальные результаты показывают, что AdaCoT успешно находит оптимальную границу Парето, значительно сокращая использование CoT для запросов, не требующих сложных рассуждений. Например, на нашем тестовом наборе производственных данных AdaCoT снизил частоту срабатывания CoT до 3,18% и уменьшил среднее количество токенов в ответе на 69,06%, сохраняя при этом высокую производительность на сложных задачах.
Языковые модели, способные к расширенному цепочечному рассуждению, продемонстрировали выдающиеся результаты в задачах, требующих сложного логического вывода. Однако применение детализированного рассуждения для всех запросов часто приводит к значительным вычислительным неэффективностям, особенно когда многие задачи допускают простые решения. Это поднимает важный вопрос: могут ли языковые модели научиться определять, когда нужно "думать"? Чтобы ответить на него, мы предлагаем Thinkless — обучаемую структуру, которая позволяет языковой модели адаптивно выбирать между кратким и развернутым рассуждением, основываясь на сложности задачи и способностях модели. Thinkless обучается в рамках парадигмы обучения с подкреплением и использует два управляющих токена: <short> для кратких ответов и <think> для детализированного рассуждения. В основе нашего метода лежит алгоритм Decoupled Group Relative Policy Optimization (DeGRPO), который разделяет цель обучения гибридного рассуждения на две составляющие: (1) потерю на управляющих токенах, которая регулирует выбор режима рассуждения, и (2) потерю на ответах, которая повышает точность генерируемых решений. Такая декомпозиция позволяет тонко контролировать вклад каждой цели, стабилизируя обучение и эффективно предотвращая коллапс, наблюдаемый в стандартном GRPO. Экспериментально, на нескольких бенчмарках, таких как Minerva Algebra, MATH-500 и GSM8K, Thinkless смог сократить использование длинных цепочек рассуждений на 50–90%, значительно повысив эффективность языковых моделей с рассуждениями. Код доступен по адресу https://github.com/VainF/Thinkless.
Механизм внимания трансформатора обладает квадратичной сложностью, что приводит к высоким затратам на вывод и задержкам при обработке длинных последовательностей. Однако матрицы внимания в основном являются разреженными, что подразумевает возможность исключения многих элементов из вычислений для эффективного вывода. Методы разреженного внимания направлены на снижение этой вычислительной нагрузки, но они также сопровождаются проблематичным снижением производительности. Мы обнаружили, что одной из причин этого снижения является то, что разреженные вычисления вызывают сдвиг распределения в выходных данных внимания. Этот сдвиг распределения приводит к тому, что запросы на этапе декодирования не могут эффективно сопоставляться с соответствующими ключами из этапа предварительного заполнения, что вызывает падение производительности. Мы предлагаем простую, новую и эффективную процедуру для коррекции этого сдвига распределения, приближая распределение выходных данных разреженного внимания к распределению квадратичного внимания. Наш метод может быть применен поверх любого метода разреженного внимания и приводит к увеличению производительности в среднем на 36 процентных пунктов, восстанавливая 88% точности квадратичного внимания на бенчмарке 131K RULER при применении поверх скользящего окна внимания с токенами-приемниками, добавляя при этом лишь небольшой накладной расход. Наш метод позволяет сохранить примерно 98,5% разреженности по сравнению с полным квадратичным вниманием, что делает нашу модель в 32 раза быстрее, чем Flash Attention 2 при обработке предварительных заполнений на 1 миллион токенов.
Граундинг графического пользовательского интерфейса (GUI), способность сопоставлять инструкции на естественном языке с конкретными действиями в графических интерфейсах, остается критическим узким местом в разработке агентов для работы с компьютерами. Современные бенчмарки упрощают задачи граундинга до коротких референциальных выражений, не учитывая сложность реальных взаимодействий, которые требуют программного здравого смысла, понимания структуры интерфейса и возможностей точного манипулирования. Чтобы устранить эти ограничения, мы представляем OSWorld-G — всеобъемлющий бенчмарк, включающий 564 тщательно аннотированных примера, охватывающих различные типы задач, такие как сопоставление текста, распознавание элементов, понимание структуры и точное манипулирование. Кроме того, мы синтезируем и публикуем крупнейший набор данных для граундинга в работе с компьютерами Jedi, который содержит 4 миллиона примеров благодаря многоперспективному разделению задач. Наши многоуровневые модели, обученные на Jedi, демонстрируют свою эффективность, превосходя существующие подходы на ScreenSpot-v2, ScreenSpot-Pro и нашем OSWorld-G. Более того, мы показываем, что улучшенный граундинг с использованием Jedi напрямую повышает агентские способности общих базовых моделей на сложных компьютерных задачах, улучшая результаты с 5% до 27% на OSWorld. С помощью детальных исследований мы выявляем ключевые факторы, влияющие на производительность граундинга, и подтверждаем, что комбинирование специализированных данных для различных элементов интерфейса позволяет достичь композиционного обобщения для новых интерфейсов. Все бенчмарки, данные, контрольные точки и код открыты и доступны по адресу https://osworld-grounding.github.io.
Объединение моделей стало перспективной методикой для улучшения крупных языковых моделей, хотя его применение в масштабном предварительном обучении остается относительно малоизученным. В данной статье мы представляем всестороннее исследование техник объединения моделей в процессе предварительного обучения. Благодаря обширным экспериментам с плотными архитектурами и архитектурами типа "Смесь экспертов" (Mixture-of-Experts, MoE), охватывающими модели от миллионов до более чем 100 миллиардов параметров, мы демонстрируем, что объединение контрольных точек, обученных с постоянными темпами обучения, не только приводит к значительному улучшению производительности, но и позволяет точно предсказывать поведение при затухании. Эти улучшения способствуют как более эффективной разработке моделей, так и существенному снижению затрат на обучение. Наши детальные исследования влияния стратегий объединения и гиперпараметров предоставляют новые инсайты в лежащие в основе механизмы, одновременно раскрывая новые области применения. Благодаря всестороннему экспериментальному анализу мы предлагаем сообществу open-source практические рекомендации по предварительному обучению для эффективного объединения моделей.
Масштабирование видео-диффузионных трансформеров (DiTs) ограничено их квадратичным 3D-вниманием, несмотря на то, что большая часть внимания сосредоточена на небольшом подмножестве позиций. Мы превращаем это наблюдение в VSA — обучаемое, аппаратно-эффективное разреженное внимание, которое заменяет полное внимание как на этапе обучения, так и на этапе вывода. В VSA легковесный грубый этап объединяет токены в тайлы и идентифицирует высоковесные критические токены; тонкий этап вычисляет токен-уровневое внимание только внутри этих тайлов, подчиняясь блочной вычислительной структуре для обеспечения аппаратной эффективности. Это приводит к единому дифференцируемому ядру, которое обучается сквозным образом, не требует постобработки и поддерживает 85\% MFU FlashAttention3. Мы провели масштабные исследования абляции и эксперименты по законам масштабирования, предварительно обучая DiTs с параметрами от 60M до 1.4B. VSA достигает точки Парето, сокращая вычислительные затраты на обучение в 2.53 раза без потери качества диффузии. Адаптация открытой модели Wan-2.1 ускоряет время внимания в 6 раз и сокращает общее время генерации с 31 секунды до 18 секунд при сопоставимом качестве. Эти результаты устанавливают обучаемое разреженное внимание как практическую альтернативу полному вниманию и ключевой инструмент для дальнейшего масштабирования видео-диффузионных моделей.
Измерение реалистичности изображений является сложной задачей в исследованиях искусственного интеллекта. Например, изображение мальчика с пылесосом в пустыне нарушает здравый смысл. Мы представляем новый метод, который называем Through the Looking Glass (TLG), для оценки согласованности изображений с точки зрения здравого смысла с использованием крупных визуально-языковых моделей (LVLMs) и трансформерного энкодера. Используя LVLMs для извлечения атомарных фактов из этих изображений, мы получаем набор точных фактов. Затем мы проводим тонкую настройку компактного классификатора с пулингом внимания на закодированных атомарных фактах. Наш метод TLG достиг нового уровня производительности на наборах данных WHOOPS! и WEIRD, используя компактный компонент тонкой настройки.
Последние достижения в области динамической реконструкции 3D-сцен демонстрируют многообещающие результаты, позволяя синтезировать высококачественные 3D-изображения с улучшенной временной согласованностью. Среди этих методов 4D Gaussian Splatting (4DGS) выделяется как привлекательный подход благодаря своей способности моделировать высокоточные пространственные и временные изменения. Однако существующие методы страдают от значительных вычислительных затрат и перерасхода памяти из-за избыточного распределения 4D-гауссов в статических областях, что также может ухудшать качество изображения. В данной работе мы представляем гибридный метод 3D-4D Gaussian Splatting (3D-4DGS) — новый фреймворк, который адаптивно представляет статические области с помощью 3D-гауссов, сохраняя 4D-гауссы для динамических элементов. Наш метод начинается с полного 4D-гауссова представления и итеративно преобразует временно инвариантные гауссы в 3D, значительно сокращая количество параметров и повышая вычислительную эффективность. При этом динамические гауссы сохраняют полное 4D-представление, точно фиксируя сложные движения. Наш подход обеспечивает значительно более быстрое время обучения по сравнению с базовыми методами 4D Gaussian Splatting, сохраняя или улучшая визуальное качество.
Способность к рассуждению, являющаяся ключевым компонентом человеческого интеллекта, продолжает оставаться серьёзным вызовом для крупных языковых моделей (LLMs) на пути к созданию искусственного общего интеллекта (AGI). Несмотря на улучшение производительности моделей в соответствии с законом масштабирования обучения, сохраняются значительные трудности, особенно в отношении алгоритмов обучения, таких как катастрофическое забывание, и ограниченной доступности новых обучающих данных. В качестве альтернативы, масштабирование на этапе тестирования улучшает способность к рассуждению за счёт увеличения вычислительных ресурсов на этапе тестирования без обновления параметров. В отличие от предыдущих методов в этой парадигме, сосредоточенных на пространстве токенов, мы предлагаем использовать латентное пространство для более эффективного рассуждения и лучшего соответствия закону масштабирования на этапе тестирования. Мы представляем LatentSeek — новый фреймворк, который улучшает способность LLM к рассуждению через адаптацию на уровне экземпляров на этапе тестирования (TTIA) в латентном пространстве модели. В частности, LatentSeek использует градиент политики для итеративного обновления латентных представлений, руководствуясь самостоятельно генерируемыми сигналами вознаграждения. LatentSeek оценивается на ряде бенчмарков для рассуждений, включая GSM8K, MATH-500 и AIME2024, на различных архитектурах LLM. Результаты показывают, что LatentSeek стабильно превосходит сильные базовые методы, такие как prompting с цепочкой рассуждений (Chain-of-Thought) и методы, основанные на тонкой настройке. Кроме того, наш анализ демонстрирует, что LatentSeek обладает высокой эффективностью, обычно сходясь за несколько итераций для задач средней сложности, при этом также выигрывая от дополнительных итераций, что подчеркивает потенциал масштабирования на этапе тестирования в латентном пространстве. Эти результаты позиционируют LatentSeek как лёгкое, масштабируемое и эффективное решение для улучшения способности LLM к рассуждению.
Хотя мультимодальные большие языковые модели (MLLMs) достигли впечатляющих успехов в понимании визуально-текстовой информации, они по-прежнему испытывают трудности со сложным многошаговым рассуждением, часто выдавая логически противоречивые или частично правильные решения. Ключевое ограничение заключается в отсутствии детального контроля за промежуточными шагами рассуждения. Чтобы решить эту проблему, мы предлагаем MM-PRM — модель вознаграждения процессов, обученную в рамках полностью автоматизированного и масштабируемого подхода. Сначала мы создаем MM-Policy, мощную мультимодальную модель, обученную на разнообразных данных для математического рассуждения. Затем мы формируем MM-K12 — тщательно отобранный набор из 10 000 мультимодальных математических задач с проверяемыми ответами, который служит исходными данными. Используя конвейер на основе метода Монте-Карло для поиска по дереву (MCTS), мы генерируем более 700 тысяч аннотаций на уровне шагов без участия человека. Полученная модель PRM используется для оценки кандидатов на пути рассуждения в рамках подхода Best-of-N и демонстрирует значительные улучшения как на внутридоменных (тестовый набор MM-K12), так и на внешних (OlympiadBench, MathVista и др.) бенчмарках. Дополнительный анализ подтверждает эффективность мягких меток, меньших скоростей обучения и разнообразия путей для оптимизации производительности PRM. MM-PRM показывает, что контроль процессов является мощным инструментом для повышения логической устойчивости мультимодальных систем рассуждения. Мы публикуем все наши коды и данные по адресу https://github.com/ModalMinds/MM-PRM.
Последние достижения в области обучения с подкреплением на основе правил (RL) значительно улучшили способность языковых моделей (LMs) к рассуждению с использованием вознаграждений, основанных на правилах. Однако существующие методы RL, такие как GRPO, REINFORCE++ и RLOO, часто сталкиваются с проблемой нестабильности обучения, где крупные обновления политики и неправильное ограничение могут привести к сбою в процессе обучения. Для решения этой проблемы мы предлагаем новый алгоритм — Оптимизацию градиента политики с ограничением на дрейф политики (Clipped Policy Gradient Optimization with Policy Drift, CPGD), предназначенный для стабилизации обучения политики в языковых моделях. CPGD вводит ограничение на дрейф политики, основанное на дивергенции Кульбака-Лейблера, для динамической регуляризации обновлений политики, а также использует механизм ограничения на логарифм отношения, чтобы предотвратить чрезмерные обновления политики. Мы предоставляем теоретическое обоснование CPGD и демонстрируем с помощью эмпирического анализа, что он устраняет нестабильность, наблюдаемую в предыдущих подходах. Кроме того, мы показываем, что CPGD значительно улучшает производительность, сохраняя стабильность обучения. Наша реализация сочетает теоретическую строгость с практической применимостью, предлагая надежную альтернативу для RL в пост-обучении языковых моделей. Мы публикуем наш код по адресу https://github.com/ModalMinds/MM-EUREKA.
Крупные языковые модели (LLM) способствовали значительному прогрессу, однако их растущее количество параметров и размеры контекстных окон приводят к непомерным затратам на вычисления, энергию и финансы. Мы представляем EfficientLLM — новый эталонный тест и первое всестороннее эмпирическое исследование, оценивающее методы повышения эффективности LLM в масштабе. Проведенное на производственном кластере (48xGH200, 8xH200 GPU), наше исследование систематически исследует три ключевых направления: (1) предварительное обучение архитектуры (эффективные варианты внимания: MQA, GQA, MLA, NSA; разреженные смеси экспертов (MoE)), (2) тонкая настройка (методы с эффективным использованием параметров: LoRA, RSLoRA, DoRA) и (3) вывод (методы квантования: int4, float16). Мы определяем шесть детализированных метрик (Использование памяти, Использование вычислений, Задержка, Пропускная способность, Потребление энергии, Степень сжатия) для оценки насыщения аппаратного обеспечения, баланса задержки и пропускной способности, а также углеродного следа. Оценив более 100 пар модель-метод (0.5B-72B параметров), мы выявили три ключевых вывода: (i) Эффективность предполагает измеримые компромиссы: ни один метод не является универсально оптимальным; например, MoE снижает количество операций с плавающей запятой (FLOPs) и повышает точность, но увеличивает использование видеопамяти (VRAM) на 40%, тогда как квантование int4 сокращает использование памяти и энергии до 3.9 раз при снижении точности на 3-5%. (ii) Оптимальные решения зависят от задачи и масштаба: MQA предлагает наилучший компромисс между памятью и задержкой для устройств с ограниченными ресурсами, MLA достигает наименьшей перплексии для задач, критичных к качеству, а RSLoRA превосходит LoRA по эффективности только при более чем 14B параметров. (iii) Методы обобщаются для различных модальностей: мы расширили оценки на крупные модели для обработки изображений (Stable Diffusion 3.5, Wan 2.1) и модели, объединяющие зрение и язык (Qwen2.5-VL), подтвердив эффективную переносимость. Открывая доступ к наборам данных, конвейерам оценки и рейтингам, EfficientLLM предоставляет важные рекомендации для исследователей и инженеров, работающих над балансом эффективности и производительности для моделей следующего поколения.
Метод Low-Rank Adaptation (LoRA), который вводит произведение двух обучаемых низкоранговых матриц в замороженные предобученные веса, широко используется для эффективной тонкой настройки языковых моделей в федеративном обучении (FL). Однако при сочетании с дифференциально приватным стохастическим градиентным спуском (DP-SGD) LoRA сталкивается с существенным усилением шума: DP-SGD искажает градиенты для каждого образца, а матричное умножение обновления LoRA (BA) усиливает этот эффект. Заморозка одной матрицы (например, A) снижает шум, но ограничивает выразительность модели, что часто приводит к неоптимальной адаптации. Для решения этой проблемы мы предлагаем FedSVD — простой, но эффективный метод, который вводит глобальную перепараметризацию на основе сингулярного разложения (SVD). В нашем подходе каждый клиент оптимизирует только матрицу B и передает ее на сервер. Сервер агрегирует матрицы B, вычисляет произведение BA с использованием предыдущей матрицы A и переразлагает результат с помощью SVD. Это дает новую адаптивную матрицу A, состоящую из ортонормированных правых сингулярных векторов BA, и обновленную матрицу B, содержащую оставшиеся компоненты SVD. Такая перепараметризация позволяет избежать квадратичного усиления шума, при этом матрица A лучше захватывает главные направления агрегированных обновлений. Более того, ортонормированная структура A ограничивает нормы градиентов B и сохраняет больше сигнала при использовании DP-SGD, что подтверждается нашим теоретическим анализом. В результате FedSVD стабильно улучшает устойчивость и производительность в различных настройках приватности и на различных тестовых наборах, превосходя соответствующие базовые методы как в приватных, так и в не приватных режимах.
Методы масштабирования на этапе вывода значительно усилили способности крупных языковых моделей (LLM) к рассуждению, используя дополнительные вычислительные ресурсы на этапе вывода без необходимости переобучения. Аналогично, метод Chain-of-Thought (CoT) и его расширение, Long CoT, повышают точность за счет генерации богатых промежуточных траекторий рассуждений, однако эти подходы требуют значительных затрат токенов, что затрудняет их применение в условиях, чувствительных к задержкам. В данной работе мы сначала показываем, что усеченный CoT, который останавливает рассуждения до завершения и напрямую генерирует окончательный ответ, часто соответствует полному CoT при использовании значительно меньшего количества токенов. На основе этого наблюдения мы представляем Fractured Sampling — унифицированную стратегию вывода, которая интерполирует между полным CoT и выборкой только решения по трем ортогональным направлениям: (1) количество траекторий рассуждений, (2) количество окончательных решений на одну траекторию и (3) глубина, на которой обрываются траектории рассуждений. В ходе обширных экспериментов на пяти различных тестах на рассуждение и нескольких масштабах моделей мы демонстрируем, что Fractured Sampling последовательно достигает превосходного баланса между точностью и затратами, обеспечивая значительные логарифмически-линейные улучшения в метрике Pass@k при заданном бюджете токенов. Наш анализ показывает, как распределять вычисления по этим направлениям для максимизации производительности, прокладывая путь к более эффективному и масштабируемому рассуждению в LLM.
Крупные языковые модели (LLM) демонстрируют различный уровень уверенности в зависимости от входных запросов (вопросов): одни приводят к последовательным, семантически схожим ответам, тогда как другие порождают разнообразные или противоречивые результаты. Это вариация отражает неопределённость LLM относительно входного запроса, что является сигналом о том, насколько уверенно модель понимает поставленную задачу. Однако стандартный метод Group Relative Policy Optimization (GRPO) обрабатывает все запросы одинаково при обновлении политики, игнорируя эту важную информацию о границах знаний модели. Чтобы устранить это ограничение, мы предлагаем SEED-GRPO (Semantic Entropy EnhanceD GRPO), который явно измеряет неопределённость LLM относительно семантической энтропии входных запросов. Семантическая энтропия оценивает разнообразие смысла в нескольких сгенерированных ответах на заданный запрос и использует это для модуляции величины обновлений политики. Этот механизм обучения, учитывающий неопределённость, позволяет динамически регулировать величину обновлений политики в зависимости от неопределённости вопроса. Это обеспечивает более консервативные обновления для вопросов с высокой неопределённостью, сохраняя при этом исходный сигнал обучения для уверенных запросов. Экспериментальные результаты на пяти бенчмарках математического мышления (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2 и OlympiadBench 48.0) демонстрируют, что SEED-GRPO достигает нового уровня наивысшей производительности по средней точности, подтверждая эффективность оптимизации политики с учётом неопределённости.
Крупные модели, работающие с визуальными и языковыми данными, демонстрируют врожденные способности для решения разнообразных задач визуального восприятия. В данной статье мы представляем VisionReasoner — унифицированную структуру, способную рассуждать и решать множество задач визуального восприятия в рамках единой модели. В частности, благодаря разработке новых стратегий многозадачного когнитивного обучения и систематической реформулировке задач, VisionReasoner улучшает свои способности к анализу визуальных данных и решает разнообразные задачи восприятия в единой структуре. Модель генерирует структурированный процесс рассуждений перед тем, как предоставить желаемые результаты в ответ на запросы пользователей. Для тщательной оценки унифицированных возможностей визуального восприятия мы тестируем VisionReasoner на десяти различных задачах, охватывающих три ключевые области: обнаружение, сегментацию и подсчет. Результаты экспериментов показывают, что VisionReasoner демонстрирует превосходную производительность в качестве унифицированной модели, превосходя Qwen2.5VL с относительными отрывами в 29,1% на COCO (обнаружение), 22,1% на ReasonSeg (сегментация) и 15,3% на CountBench (подсчет).
Понимание диаграмм представляет собой уникальную задачу для крупных моделей, работающих с визуальными и текстовыми данными (LVLMs), поскольку требует интеграции сложных навыков текстового и визуального анализа. Однако современные LVLMs демонстрируют заметный дисбаланс между этими навыками, особенно в части визуального анализа, который сложно выполнить с помощью текста. Мы проводим кейс-стадию, используя синтетический набор данных, который можно решить только с помощью визуального анализа, и показываем, что производительность моделей значительно ухудшается с увеличением визуальной сложности, в то время как человеческая производительность остается стабильной. Затем мы представляем ChartMuseum — новый эталонный набор для ответов на вопросы по диаграммам (Chart QA), содержащий 1 162 вопроса, аннотированных экспертами и охватывающих различные типы анализа, составленных на основе реальных диаграмм из 184 источников. Этот набор специально разработан для оценки сложного визуального и текстового анализа. В отличие от предыдущих эталонов для понимания диаграмм, где передовые модели показывают схожие результаты, близкие к насыщению, наш эталон выявляет значительный разрыв между производительностью моделей и человека, эффективно дифференцируя возможности моделей: хотя люди достигают точности 93%, лучшая модель Gemini-2.5-Pro показывает только 63,0%, а ведущая открытая LVLM Qwen2.5-VL-72B-Instruct — лишь 38,5%. Более того, на вопросах, требующих преимущественно визуального анализа, все модели демонстрируют снижение производительности на 35–55% по сравнению с вопросами, ориентированными на текстовый анализ. Наконец, наш качественный анализ ошибок выявляет конкретные категории визуального анализа, которые представляют сложность для современных LVLMs.
Точное распознавание поискового намерения в системах Retrieval-Augmented Generation (RAG) остается сложной задачей, особенно в условиях ограниченных ресурсов и для сложных запросов с вложенными структурами и зависимостями. В данной статье представлен QCompiler, нейро-символический фреймворк, вдохновленный правилами лингвистической грамматики и проектированием компиляторов, который призван устранить этот пробел. Теоретически разработана минимальная, но достаточная грамматика в форме Бэкуса-Наура (BNF) G[q] для формализации сложных запросов. В отличие от предыдущих методов, эта грамматика сохраняет полноту, минимизируя избыточность. На основе этого QCompiler включает в себя Переводчик выражений запросов, Лексический синтаксический анализатор и Рекурсивный нисходящий процессор для компиляции запросов в абстрактные синтаксические деревья (AST) для выполнения. Атомарность подзапросов в листовых узлах обеспечивает более точное извлечение документов и генерацию ответов, значительно улучшая способность системы RAG обрабатывать сложные запросы.
Интеграция больших языковых моделей с символическими планировщиками представляет собой перспективное направление для получения проверяемых и обоснованных планов по сравнению с планированием на естественном языке, при этом последние работы расширяют эту идею на визуальные области с использованием моделей "Vision-Language" (VLM). Однако строгое сравнение между символическими подходами, основанными на VLM, и методами, которые планируют напрямую с использованием VLM, затруднено из-за отсутствия общих сред, протоколов оценки и охвата моделей. Мы представляем ViPlan — первый открытый бенчмарк для визуального планирования с символическими предикатами и VLM. ViPlan включает серию задач возрастающей сложности в двух областях: визуальный вариант классической задачи планирования Blocksworld и симулированная среда домашней робототехники. Мы тестируем девять семейств открытых VLM различных размеров, а также выбранные закрытые модели, оценивая как символическое планирование, основанное на VLM, так и прямое предложение действий с использованием моделей. Мы обнаруживаем, что символическое планирование превосходит прямое VLM-планирование в Blocksworld, где точное визуальное обоснование имеет решающее значение, тогда как в задачах домашней робототехники преимущество на стороне прямого VLM-планирования, где полезны здравый смысл и способность восстанавливаться после ошибок. Наконец, мы показываем, что для большинства моделей и методов использование подсказок "Chain-of-Thought" не дает значительного преимущества, что свидетельствует о том, что современные VLM всё ещё испытывают трудности с визуальным рассуждением.
Модели вознаграждения играют ключевую роль в согласовании выходных данных языковых моделей с человеческими предпочтениями, однако существующие подходы часто страдают от недостатка управляемости и интерпретируемости. Эти модели обычно оптимизируются для узких задач, что ограничивает их применимость к более широкому спектру задач. Кроме того, их скалярные выходные данные сложно интерпретировать без контекстного анализа. Чтобы устранить эти ограничения, мы представляем R3 — новую структуру моделирования вознаграждений, которая не зависит от конкретных критериев, обобщается на различные измерения оценки и предоставляет интерпретируемые, обоснованные оценки. R3 обеспечивает более прозрачную и гибкую оценку языковых моделей, поддерживая устойчивое согласование с разнообразными человеческими ценностями и сценариями использования. Наши модели, данные и код доступны в открытом доступе по адресу https://github.com/rubricreward/r3.
Мы представляем SLED — альтернативный подход к моделированию речи, который заключается в кодировании речевых сигналов в последовательности непрерывных латентных представлений и их авторегрессивном моделировании с использованием целевой функции на основе энергетического расстояния. Энергетическое расстояние предоставляет аналитическую меру распределительного разрыва путем сравнения смоделированных и целевых выборок, что позволяет эффективно обучать модель для захвата лежащего в основе непрерывного авторегрессивного распределения. Благодаря отказу от использования остаточной векторной квантизации, SLED избегает ошибок дискретизации и устраняет необходимость в сложных иерархических архитектурах, характерных для существующих моделей речи. Это упрощает общий процесс моделирования, сохраняя при этом богатство речевой информации и эффективность вывода. Эмпирические результаты демонстрируют, что SLED достигает высокой производительности как в синтезе речи с нулевым обучением, так и в потоковом синтезе, что указывает на его потенциал для более широкого применения в универсальных моделях речи.
Недавние достижения в области больших языковых моделей (LLM) подогрели интерес к идее автоматизированного научного открытия, часто называемого "AI Co-Scientists". До настоящего времени предыдущие работы рассматривали такие системы как генеративных соавторов, ответственных за формулирование гипотез, синтез кода или составление рукописей. В данной работе мы исследуем дополнительное применение: использование LLM в качестве верификаторов для автоматизации академической проверки научных рукописей. С этой целью мы представляем SPOT — набор данных, включающий 83 опубликованные статьи, сопоставленные с 91 ошибкой, достаточно значимой для инициирования исправлений или отзыва публикации, проверенной с участием реальных авторов и человеческих аннотаторов. Оценивая современные LLM на SPOT, мы обнаруживаем, что ни одна из них не превосходит 21,1% полноты или 6,1% точности (o3 показывает наилучшие результаты, в то время как остальные близки к нулю). Более того, оценки уверенности остаются стабильно низкими, а в восьми независимых запусках модели редко повторно обнаруживают одни и те же ошибки, что подрывает их надежность. Наконец, качественный анализ с участием экспертов в предметной области показывает, что даже самые сильные модели допускают ошибки, напоминающие студенческие заблуждения, вызванные непониманием. Эти результаты подчеркивают значительный разрыв между текущими возможностями LLM и требованиями к надежной AI-ассистированной академической верификации.
Анимация изображений человека привлекает все больше внимания и стремительно развивается благодаря широкому применению в цифровых людях. Однако существующие методы в значительной степени полагаются на 2D-рендеренные изображения поз для управления движением, что ограничивает обобщаемость и игнорирует важную 3D-информацию для анимации в открытом мире. Чтобы решить эту проблему, мы предлагаем MTVCrafter (Motion Tokenization Video Crafter) — первую структуру, которая непосредственно моделирует сырые 3D-последовательности движений (т.е. 4D-движения) для анимации изображений человека. В частности, мы вводим 4DMoT (4D motion tokenizer) для квантования 3D-последовательностей движений в 4D-токены движений. По сравнению с 2D-рендеренными изображениями поз, 4D-токены движений предоставляют более надежные пространственно-временные подсказки и избегают строгого пиксельного выравнивания между изображением позы и персонажем, обеспечивая более гибкий и разделенный контроль. Затем мы представляем MV-DiT (Motion-aware Video DiT). Благодаря уникальному механизму внимания к движению с 4D-позиционным кодированием, MV-DiT может эффективно использовать токены движений как компактный, но выразительный 4D-контекст для анимации изображений человека в сложном 3D-мире. Таким образом, это знаменует значительный шаг вперед в этой области и открывает новое направление для генерации видео человека, управляемой позами. Эксперименты показывают, что наш MTVCrafter достигает передовых результатов с FID-VID 6.98, превосходя второй лучший результат на 65%. Благодаря надежным токенам движений, MTVCrafter также хорошо обобщается на разнообразных персонажей открытого мира (одиночные/множественные, полное/половинное тело) в различных стилях и сценариях. Наши видео-демонстрации и код доступны по адресу: https://github.com/DINGYANB/MTVCrafter.
Модели генерации изображений получили широкое распространение. В качестве примера, модель TarFlow объединяет архитектуру трансформера с моделями нормализующих потоков, достигая передовых результатов на множестве бенчмарков. Однако из-за причинной формы внимания, требующей последовательных вычислений, процесс сэмплирования в TarFlow крайне медленный. В данной работе мы показываем, что с помощью ряда стратегий оптимизации сэмплирование в TarFlow можно значительно ускорить, используя метод итераций Гаусса-Зейделя-Якоби (сокращённо GS-Jacobi). В частности, мы обнаружили, что блоки в модели TarFlow имеют разную важность: небольшое количество блоков играет основную роль в задачах генерации изображений, в то время как другие блоки вносят относительно небольшой вклад; некоторые блоки чувствительны к начальным значениям и склонны к числовому переполнению, тогда как другие относительно устойчивы. На основе этих двух характеристик мы предлагаем метрику ранжирования сходимости (Convergence Ranking Metric, CRM) и метрику начального предположения (Initial Guessing Metric, IGM): CRM используется для определения, является ли блок TarFlow "простым" (сходится за небольшое количество итераций) или "сложным" (требует больше итераций); IGM используется для оценки того, насколько хорошим является начальное значение итерации. Эксперименты на четырёх моделях TarFlow демонстрируют, что сэмплирование с использованием GS-Jacobi может значительно повысить эффективность сэмплирования, сохраняя качество генерируемых изображений (измеряемое по FID), достигая ускорений в 4.53 раза для Img128cond, 5.32 раза для AFHQ, 2.96 раза для Img64uncond и 2.51 раза для Img64cond без ухудшения показателей FID или качества сэмплов. Код и контрольные точки доступны на https://github.com/encoreus/GS-Jacobi_for_TarFlow.
Tiny QA Benchmark++ (TQB++) представляет собой сверхлегкий, многоязычный набор тестов, предназначенный для создания "страховочной сети" в стиле модульных тестов для конвейеров больших языковых моделей (LLM), который выполняется за секунды с минимальными затратами. Этот инструмент был разработан в ответ на потребность в быстрой обратной связи при создании SDK для оптимизации запросов Comet Opik, где ожидание результатов тяжеловесных бенчмарков нарушало рабочий процесс разработчиков. TQB++ объединяет 52-элементный эталонный набор на английском языке (менее 20 КБ) с компактным генератором синтетических данных в виде пакета pypi, построенного на основе независимого от провайдера LiteLLM. Генератор позволяет специалистам создавать свои собственные мини-наборы данных на любом языке, в любой предметной области или с любым уровнем сложности, при этом уже доступны готовые наборы для арабского, китайского, французского, немецкого, японского, корейского, португальского, русского, испанского и турецкого языков. Каждый набор данных поставляется с метаданными Croissant и готовыми к использованию файлами для OpenAI-Evals, LangChain и стандартных инструментов CI, что позволяет командам интегрировать детерминированные микро-тесты непосредственно в процессы проверки pull-request, циклы инженерии запросов и производственные панели мониторинга, не затрагивая бюджеты на GPU. Полный прогон TQB++ добавляет всего несколько секунд к задержке конвейера, но при этом надежно выявляет ошибки в шаблонах запросов, отклонения в токенизации и побочные эффекты тонкой настройки задолго до того, как крупномасштабные наборы тестов, такие как MMLU или BIG-Bench, завершат настройку. Весь фреймворк выпущен для ускорения непрерывного и ресурсоэффективного обеспечения качества в экосистеме генеративного ИИ.
Врачи и пациенты всё чаще используют крупные языковые модели (LLM) для диагностики клинических случаев. Однако, в отличие от таких областей, как математика или программирование, где правильность может быть объективно определена по конечному ответу, медицинская диагностика требует точности как в результате, так и в процессе рассуждений. В настоящее время широко используемые медицинские тесты, такие как MedQA и MMLU, оценивают только точность конечного ответа, упуская из виду качество и достоверность клинического процесса рассуждений. Чтобы устранить этот недостаток, мы представляем MedCaseReasoning — первый открытый набор данных для оценки способности LLM соответствовать диагностическим рассуждениям, составленным клиницистами. Набор данных включает 14 489 диагностических вопросов и ответов, каждый из которых сопровождается подробными рассуждениями, взятыми из открытых медицинских отчётов. Мы оцениваем современные LLM, специализирующиеся на рассуждениях, на основе MedCaseReasoning и обнаруживаем значительные недостатки в их диагнозах и рассуждениях: например, лучшая открытая модель, DeepSeek-R1, достигает только 48% точности диагностики в режиме 10-shot и упоминает лишь 64% рассуждений клиницистов (полнота). Однако мы показываем, что тонкая настройка LLM на траекториях рассуждений, полученных из MedCaseReasoning, значительно улучшает точность диагностики и полноту клинических рассуждений, с относительным приростом в среднем на 29% и 41% соответственно. Открытый набор данных, код и модели доступны по адресу https://github.com/kevinwu23/Stanford-MedCaseReasoning.
Несмотря на значительные достижения в области генерации видео, синтез физически правдоподобных человеческих действий остается сложной задачей, особенно в моделировании тонкой семантики и сложной временной динамики. Например, генерация гимнастических элементов, таких как "перескок с поворотом на 0.5 оборота", представляет существенные трудности для современных методов, часто приводя к неудовлетворительным результатам. Для преодоления этого разрыва мы предлагаем FinePhys — фреймворк для генерации тонких человеческих действий, который интегрирует физику для получения эффективного скелетного руководства. В частности, FinePhys сначала оценивает 2D позы в режиме реального времени, а затем выполняет преобразование из 2D в 3D с помощью обучения в контексте. Чтобы устранить нестабильность и ограниченную интерпретируемость чисто данных 3D поз, мы дополнительно вводим модуль переоценки движения на основе физики, управляемый уравнениями Эйлера-Лагранжа, который вычисляет ускорения суставов с помощью двунаправленного временного обновления. Физически предсказанные 3D позы затем объединяются с данными, полученными на основе данных, предоставляя многоуровневое руководство по 2D тепловым картам для процесса диффузии. Оценка на трех наборах тонких действий из FineGym (FX-JUMP, FX-TURN и FX-SALTO) показывает, что FinePhys значительно превосходит конкурентоспособные базовые методы. Комплексные качественные результаты дополнительно демонстрируют способность FinePhys генерировать более естественные и правдоподобные тонкие человеческие действия.
Масштабирование во время тестирования (Test-Time Scaling, TTS) относится к подходам, которые улучшают производительность рассуждений за счет выделения дополнительных вычислительных ресурсов на этапе вывода, не изменяя параметры модели. В то время как существующие методы TTS работают в дискретном пространстве токенов, генерируя больше промежуточных шагов, недавние исследования в Coconut и SoftCoT показали, что рассуждения в непрерывном латентном пространстве могут дополнительно повысить производительность. Такие латентные мысли кодируют информативное мышление без потерь информации, связанных с авторегрессивной генерацией токенов, что вызывает растущий интерес к рассуждениям в непрерывном пространстве. В отличие от дискретного декодирования, где повторная выборка позволяет исследовать разнообразные пути рассуждений, латентные представления в непрерывном пространстве фиксированы для данного входа, что ограничивает разнообразие исследований, так как все декодированные пути исходят из одной и той же латентной мысли. Чтобы преодолеть это ограничение, мы представляем SoftCoT++, который расширяет SoftCoT до парадигмы масштабирования во время тестирования, позволяя исследовать разнообразные пути мышления. В частности, мы возмущаем латентные мысли с помощью нескольких специализированных начальных токенов и применяем контрастное обучение для повышения разнообразия среди мягких представлений мыслей. Эксперименты на пяти тестах рассуждений и двух различных архитектурах больших языковых моделей (LLM) демонстрируют, что SoftCoT++ значительно улучшает SoftCoT и также превосходит SoftCoT с масштабированием самосогласованности. Более того, он показывает сильную совместимость с традиционными методами масштабирования, такими как самосогласованность. Исходный код доступен по адресу https://github.com/xuyige/SoftCoT.
Модели диффузии видео (DMs) обеспечивают синтез видео высокого качества. Однако их значительные вычислительные и ресурсные требования создают серьезные проблемы для практического применения, даже на высокопроизводительных GPU. В качестве распространенного решения квантование доказало свою эффективность в снижении затрат для моделей диффузии изображений, но его прямое применение к моделям видео остается малоэффективным. В данной статье мы представляем QVGen — новую структуру для обучения с учетом квантования (QAT), разработанную для высокопроизводительных и эффективных моделей диффузии видео при крайне низкобитном квантовании (например, 4 бита или ниже). Мы начинаем с теоретического анализа, показывающего, что уменьшение нормы градиента является ключевым для обеспечения сходимости в QAT. Для этого мы вводим вспомогательные модули (Phi), чтобы смягчить значительные ошибки квантования, что существенно улучшает сходимость. Чтобы устранить накладные расходы на вывод данных для Phi, мы предлагаем стратегию затухания ранга, которая постепенно устраняет Phi. В частности, мы многократно используем сингулярное разложение (SVD) и предложенную ранговую регуляризацию gamma для выявления и затухания компонентов с низким вкладом. Эта стратегия сохраняет производительность, устраняя накладные расходы на вывод данных. Многочисленные эксперименты с 4 современными моделями диффузии видео, размеры параметров которых варьируются от 1,3B до 14B, показывают, что QVGen впервые достигает качества, сопоставимого с полной точностью, при 4-битных настройках. Более того, он значительно превосходит существующие методы. Например, наша 3-битная модель CogVideoX-2B демонстрирует улучшения на +25,28 по показателю Dynamic Degree и +8,43 по показателю Scene Consistency на VBench.
В последние годы появление крупных моделей рассуждений (LRM), таких как OpenAI-o1 и DeepSeek-R1, продемонстрировало впечатляющие способности в решении сложных задач, например, в математике и программировании. Некоторые передовые исследования пытаются перенести успехи LRM в область нейронного машинного перевода (MT). Они стремятся создать LRM с глубокими способностями к рассуждениям в MT с использованием обучения с подкреплением (RL). Несмотря на достигнутый прогресс, эти попытки в основном сосредоточены на нескольких языках с большими ресурсами, таких как английский и китайский, оставляя неясной производительность на других языках. Кроме того, методы моделирования вознаграждения в предыдущих работах не полностью раскрывают потенциал обучения с подкреплением в MT. В данной работе мы сначала разрабатываем новый метод моделирования вознаграждения, который сравнивает результаты перевода модели MT с сильной LRM (например, DeepSeek-R1-671B) и количественно оценивает эти сравнения для предоставления вознаграждений. Экспериментальные результаты демонстрируют превосходство этого метода моделирования вознаграждения. Используя Qwen2.5-7B-Instruct в качестве основы, обученная модель достигает нового уровня производительности в литературном переводе и превосходит сильные LRM, включая OpenAI-o1 и DeepSeek-R1. Кроме того, мы расширяем наш метод на многоязычные настройки с 11 языками. С тщательно разработанным облегченным моделированием вознаграждения в RL мы можем просто перенести сильные способности MT из одного направления на множество (т.е. 90) направлений перевода и достичь впечатляющей производительности в многоязычном MT.
Последние достижения в области цифровой патологии (ЦП), особенно благодаря искусственному интеллекту и базовым моделям, подчеркнули важность крупномасштабных, разнообразных и богато аннотированных наборов данных. Несмотря на их критическую роль, общедоступные наборы данных, содержащие изображения целых срезов тканей (Whole Slide Images, WSI), часто недостаточно масштабны, не обладают достаточным разнообразием тканей и исчерпывающей клинической метаинформацией, что ограничивает устойчивость и обобщаемость моделей ИИ. В ответ на это мы представляем набор данных HISTAI — крупную, мультимодальную, открытую коллекцию WSI, включающую более 60 000 срезов различных типов тканей. Каждый случай в наборе данных HISTAI сопровождается обширной клинической метаинформацией, включающей диагноз, демографические данные, детальные патологические аннотации и стандартизированные диагностические коды. Набор данных призван восполнить пробелы, выявленные в существующих ресурсах, способствуя инновациям, воспроизводимости и разработке клинически значимых решений в области вычислительной патологии. Набор данных доступен по адресу: https://github.com/HistAI/HISTAI.
Наборы данных с предпочтениями имеют ключевое значение для обучения языковых моделей общего назначения, способных следовать инструкциям, с использованием обучения с подкреплением на основе обратной связи от человека (RLHF). Каждый последующий выпуск данных повышает ожидания в отношении будущих сборов данных, что означает постоянную необходимость в улучшении качества и разнообразия открыто доступных данных о предпочтениях. Для удовлетворения этой потребности мы представляем HelpSteer3-Preference — высококачественный набор данных с предпочтениями, аннотированный людьми и распространяемый под лицензией CC-BY-4.0, который включает более 40 000 образцов. Эти образцы охватывают разнообразные реальные применения крупных языковых моделей (LLM), включая задачи, связанные с STEM, программированием и многоязычными сценариями. Используя HelpSteer3-Preference, мы обучаем модели вознаграждения (RMs), которые достигают наивысшей производительности на RM-Bench (82,4%) и JudgeBench (73,7%). Это представляет собой значительное улучшение (~10% в абсолютных значениях) по сравнению с ранее зафиксированными лучшими результатами существующих моделей вознаграждения. Мы демонстрируем, что HelpSteer3-Preference также может быть использован для обучения генеративных моделей вознаграждения, и как модели политик могут быть согласованы с RLHF с использованием наших моделей вознаграждения. Набор данных (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference.
Человеко-компьютерное взаимодействие давно мечтает о технологиях, которые понимают нас — от наших предпочтений и привычек до времени и целей наших повседневных действий. Однако современные модели пользователей остаются фрагментированными, узконаправленными для конкретных приложений и неспособными к гибкому рассуждению, необходимому для реализации этих идей. В данной статье представлена архитектура общей модели пользователя (GUM), которая изучает вас, наблюдая за любым взаимодействием с компьютером. GUM принимает на вход любые неструктурированные наблюдения за пользователем (например, скриншоты устройств) и формирует уверенно взвешенные утверждения, которые отражают знания и предпочтения пользователя. GUM может сделать вывод, что пользователь готовится к свадьбе, на которую он собирается, на основе сообщений с другом. Или распознать, что пользователь испытывает трудности с обратной связью от коллеги по черновику, наблюдая за множеством застопорившихся правок и переходом к чтению связанных материалов. GUM представляет архитектуру, которая выводит новые утверждения о пользователе на основе мультимодальных наблюдений, извлекает связанные утверждения для контекста и постоянно пересматривает существующие утверждения. Чтобы продемонстрировать широту приложений, которые GUM делает возможными, мы показываем, как они обогащают чат-ассистентов контекстом, управляют уведомлениями операционной системы для выборочного отображения важной информации и позволяют интерактивным агентам адаптироваться к предпочтениям в различных приложениях. Мы также реализуем проактивных ассистентов (GUMBO), которые обнаруживают и выполняют полезные предложения от имени пользователя, используя их GUM. В наших оценках мы обнаружили, что GUM делают калиброванные и точные выводы о пользователях, а ассистенты, построенные на основе GUM, проактивно идентифицируют и выполняют действия, которые пользователи не подумали бы запросить явно. В целом, GUM представляют методы, которые используют мультимодальные модели для понимания неструктурированного контекста, воплощая давние идеи человеко-компьютерного взаимодействия и создавая совершенно новые интерактивные системы, предвосхищающие потребности пользователей.
Разрешение омонимов остается серьезной проблемой в преобразовании графем в фонемы (G2P), особенно для языков с ограниченными ресурсами. Эта проблема имеет два аспекта: (1) создание сбалансированных и всеобъемлющих наборов данных с омонимами требует значительных усилий и затрат, и (2) специфические стратегии разрешения омонимов вносят дополнительную задержку, что делает их непригодными для приложений реального времени, таких как программы чтения с экрана и другие инструменты доступности. В данной статье мы рассматриваем обе проблемы. Во-первых, мы предлагаем полуавтоматизированный процесс для создания наборов данных, ориентированных на омонимы, представляем набор данных HomoRich, созданный с использованием этого процесса, и демонстрируем его эффективность, применяя его для улучшения современной системы G2P на основе глубокого обучения для персидского языка. Во-вторых, мы предлагаем смену парадигмы — использование богатых оффлайн-наборов данных для разработки быстрых, основанных на правилах методов, подходящих для приложений, чувствительных к задержкам, таких как программы чтения с экрана. С этой целью мы улучшаем одну из наиболее известных систем G2P на основе правил, eSpeak, превращая ее в быструю версию с поддержкой омонимов, HomoFast eSpeak. Наши результаты показывают приблизительное 30%-ное улучшение точности разрешения омонимов для систем на основе глубокого обучения и eSpeak.
Ранние пещерные люди полагались на жесты, звуки и простые сигналы для координации, планирования, избегания хищников и распределения ресурсов. Сегодня люди используют сложные языки для достижения впечатляющих результатов. Что движет этой эволюцией в коммуникации? Как язык возникает, адаптируется и становится жизненно важным для командной работы? Понимание истоков языка остается сложной задачей. Ведущая гипотеза в лингвистике и антропологии предполагает, что язык развился для удовлетворения экологических и социальных потребностей раннего человеческого сотрудничества. Язык возник не изолированно, а через общие цели выживания. Вдохновленные этой идеей, мы исследуем возникновение языка в многоагентных играх на поиск ресурсов. Эти среды разработаны для отражения когнитивных и экологических ограничений, которые, как считается, повлияли на эволюцию коммуникации. Агенты действуют в общем сеточном мире, обладая лишь частичной информацией о других агентах и окружающей среде, и должны координироваться для выполнения задач, таких как сбор высокоценных целей или выполнение временно упорядоченных действий. Используя сквозное глубокое обучение с подкреплением, агенты с нуля изучают как действия, так и стратегии коммуникации. Мы обнаруживаем, что агенты разрабатывают протоколы коммуникации с характерными чертами естественного языка: произвольностью, взаимозаменяемостью, смещением, культурной передачей и композициональностью. Мы количественно оцениваем каждое свойство и анализируем, как различные факторы, такие как размер популяции и временные зависимости, формируют конкретные аспекты возникающего языка. Наша платформа служит инструментом для изучения того, как язык может эволюционировать из частичной наблюдаемости, временного мышления и кооперативных целей в воплощенных многоагентных средах. Мы опубликуем все данные, код и модели в открытом доступе.
Обучение высокопроизводительных малых языковых моделей (SLMs) остается затратным, даже с использованием методов дистилляции знаний и обрезки из более крупных моделей-учителей. Существующие подходы часто сталкиваются с тремя ключевыми проблемами: (1) потеря информации из-за жесткой обрезки, (2) неэффективное согласование представлений и (3) недостаточное использование информативных активаций, особенно из прямых сетей (FFN). Для решения этих проблем мы представляем Low-Rank Clone (LRC) — эффективный метод предварительного обучения, который создает SLMs, стремящиеся к поведенческой эквивалентности с мощными моделями-учителями. LRC обучает набор матриц низкого ранга, которые совместно обеспечивают мягкую обрезку путем сжатия весов учителя и клонирование активаций путем согласования активаций ученика, включая сигналы FFN, с активациями учителя. Этот унифицированный подход максимизирует передачу знаний, устраняя необходимость в явных модулях согласования. Многочисленные эксперименты с открытыми моделями-учителями (например, Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) показывают, что LRC соответствует или превосходит современные модели, обученные на триллионах токенов, — при использовании всего 20 миллиардов токенов, достигая более чем 1000-кратной эффективности обучения. Наши коды и контрольные точки моделей доступны по адресам https://github.com/CURRENTF/LowRankClone и https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
Точное определение методов атак в текстах по безопасности имеет решающее значение для эффективной киберзащиты. Однако существующие методы сталкиваются с фундаментальным компромиссом: они либо полагаются на универсальные модели с ограниченной точностью в предметной области, либо требуют ресурсоемких процессов, зависящих от больших размеченных наборов данных и специфических оптимизаций, таких как создание сложных отрицательных примеров и удаление шума, ресурсов, которые редко доступны в специализированных областях. Мы предлагаем TechniqueRAG, предметно-ориентированную структуру на основе извлечения и генерации (RAG), которая устраняет этот разрыв, интегрируя готовые модели для извлечения, крупные языковые модели (LLM), настроенные на инструкции, и минимальные пары текст-метод. Наш подход решает проблему нехватки данных, тонко настраивая только компонент генерации на ограниченных примерах из предметной области, избегая необходимости в ресурсоемком обучении извлечения. В то время как традиционный RAG снижает вероятность галлюцинаций, связывая извлечение и генерацию, его зависимость от универсальных моделей извлечения часто приводит к появлению шумных кандидатов, ограничивая точность в предметной области. Чтобы решить эту проблему, мы повышаем качество извлечения и предметную специфичность с помощью повторного ранжирования с использованием LLM в режиме zero-shot, что явно согласует извлеченные кандидаты с методами атак. Эксперименты на нескольких тестовых наборах данных по безопасности показывают, что TechniqueRAG достигает наилучших результатов без обширных специфических оптимизаций или размеченных данных, а всесторонний анализ предоставляет дополнительные инсайты.
Процессор обработки изображений (ISP) является ключевым компонентом современных камер смартфонов, отвечающим за преобразование RAW-данных сенсора в RGB-изображения с акцентом на воспринимаемое качество. Последние исследования подчеркивают потенциал подходов на основе глубокого обучения и их способность воспроизводить детали с качеством, все более приближающимся к профессиональным камерам. Сложным и затратным этапом при разработке обучаемого ISP является получение попиксельно выровненных пар данных, которые связывают RAW-изображения, захваченные сенсором камеры смартфона, с высококачественными эталонными изображениями. В данной работе мы решаем эту задачу, предлагая новый метод обучения для обучаемого ISP, который устраняет необходимость в прямом соответствии между RAW-изображениями и эталонными данными с совпадающим содержанием. Наш подход без пар использует многокомпонентную функцию потерь, управляемую состязательным обучением с несколькими дискриминаторами, обрабатывающими карты признаков из предварительно обученных сетей, чтобы сохранить структуру содержимого, одновременно изучая цветовые и текстурные характеристики из целевого набора RGB-данных. Используя легковесные архитектуры нейронных сетей, подходящие для мобильных устройств, в качестве основы, мы оценили наш метод на наборах данных Zurich RAW to RGB и Fujifilm UltraISP. По сравнению с методами обучения с парами, наша стратегия обучения без пар демонстрирует значительный потенциал и достигает высокой точности по множеству метрик оценки. Код и предварительно обученные модели доступны по адресу https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data.
Выявление тонких технических ошибок в сложных научных и технических документах, особенно тех, которые требуют мультимодальной интерпретации (например, формул в изображениях), представляет собой значительную проблему для больших языковых моделей (LLM), чьи внутренние склонности к исправлению ошибок могут маскировать неточности. Данное исследование, являющееся предварительным доказательством концепции (PoC), изучает структурированное контекстное обусловливание LLM, основанное на принципах Persistent Workflow Prompting (PWP), как методологическую стратегию для модуляции поведения LLM на этапе вывода. Этот подход направлен на повышение надежности общедоступных универсальных LLM (в частности, Gemini 2.5 Pro и ChatGPT Plus o3) для задач точной проверки, критически полагаясь только на их стандартные интерфейсы чата без доступа к API или модификаций модели. Для изучения этой методологии мы сосредоточились на проверке химических формул в одном сложном тестовом документе с известными текстовыми и графическими ошибками. Были оценены несколько стратегий запросов: хотя базовые запросы оказались ненадежными, подход, адаптирующий структуры PWP для строгого обусловливания аналитического мышления LLM, показал улучшение в выявлении текстовых ошибок для обеих моделей. Примечательно, что этот метод также позволил Gemini 2.5 Pro неоднократно выявлять тонкую ошибку в формуле на изображении, ранее упущенную при ручной проверке, — задачу, с которой ChatGPT Plus o3 в наших тестах не справился. Эти предварительные результаты подчеркивают специфические режимы работы LLM, которые препятствуют детализированной проверке, и предполагают, что контекстное обусловливание, основанное на PWP, предлагает многообещающий и высокодоступный метод для разработки более надежных аналитических процессов, управляемых LLM, особенно для задач, требующих тщательного выявления ошибок в научных и технических документах. Для подтверждения более широкой применимости необходима обширная проверка за пределами данного ограниченного PoC.
Данное исследование рассматривает крупные языковые модели (LLM) в качестве автономных агентов для выполнения реальных задач, включая фриланс-разработку программного обеспечения. В работе представлен новый бенчмарк, который оценивает LLM на задачах фриланс-программирования и анализа данных, основанных на экономических данных. Бенчмарк построен с использованием синтетических задач, созданных на основе набора данных Kaggle Freelancer, содержащего объявления о вакансиях, с унифицированными ценами в долларах США (медианная стоимость проекта составляет около 250 долларов, средняя — 306). Каждая задача сопровождается структурированными тестовыми примерами входных и выходных данных, а также предполагаемой стоимостью, что позволяет автоматизировать проверку корректности и оценить производительность в денежном выражении. Этот подход вдохновлен недавним бенчмарком OpenAI SWE-Lancer (1 400 реальных задач с Upwork общей стоимостью 1 миллион долларов). Однако наш фреймворк упрощает оценку за счет использования задач, которые можно программно тестировать, и прогнозируемых стоимостей, что делает его высокомасштабируемым и воспроизводимым. На этом бенчмарке мы оцениваем четыре современные LLM: Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 и Mistral. Мы сообщаем точность каждой модели (доля успешно выполненных задач и пройденных тестовых случаев) и общий "фриланс-доход" (сумма стоимостей решенных задач). Наши результаты показывают, что Claude 3.5 Haiku демонстрирует наилучшие результаты, зарабатывая примерно 1,52 миллиона долларов, за ним следует GPT-4o-mini с 1,49 миллиона, затем Qwen 2.5 (1,33 миллиона) и Mistral (0,70 миллиона). Мы анализируем распределение ошибок по задачам и отмечаем, что наиболее сильные модели решают больше всего задач и редко полностью проваливаются на каком-либо проекте. Мы обсуждаем последствия этих результатов для осуществимости использования ИИ в качестве фриланс-разработчика, преимущества и ограничения нашего автоматизированного подхода к бенчмаркингу, а также разрыв между производительностью на структурированных задачах и реальной сложностью фриланс-работы.
Критический рецензирование научных рукописей представляет собой значительную задачу для крупных языковых моделей (LLM), что частично обусловлено ограниченностью данных и сложностью экспертного анализа. В данном отчете представлена методика Persistent Workflow Prompting (PWP), потенциально широко применимая инженерная техника создания запросов, предназначенная для преодоления этого разрыва с использованием стандартных интерфейсов чата LLM (без кода и API). Мы демонстрируем концептуальный пример PWP-запроса для критического анализа рукописей по экспериментальной химии, который включает иерархическую модульную архитектуру (структурированную с помощью Markdown), определяющую детализированные рабочие процессы анализа. Этот PWP-запрос разработан посредством итеративного применения мета-запросов и мета-рассуждений, направленных на систематическую кодификацию экспертных рабочих процессов рецензирования, включая неявные знания. После однократного ввода в начале сессии этот PWP-запрос обеспечивает LLM постоянными рабочими процессами, активируемыми последующими запросами, что позволяет направлять современные LLM через систематические мультимодальные оценки. Демонстрации показывают, что PWP-направленная LLM выявляет основные методологические недостатки в тестовом случае, смягчает предвзятость входных данных LLM и выполняет сложные задачи, включая различение утверждений и доказательств, интеграцию анализа текста/фотографий/рисунков для вывода параметров, выполнение количественных проверок осуществимости, сравнение оценок с утверждениями и оценку априорной правдоподобности. Для обеспечения прозрачности и облегчения воспроизведения мы предоставляем полные запросы, детализированные демонстрационные анализы и журналы интерактивных чатов в качестве дополнительных ресурсов. Помимо конкретного применения, данная работа предлагает инсайты в сам процесс мета-разработки, подчеркивая потенциал PWP, основанного на детальной формализации рабочих процессов, для выполнения сложного анализа с использованием доступных LLM в рамках научных задач.