Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем BlenderFusion, генеративный фреймворк для визуального композитинга, который синтезирует новые сцены путем перекомпоновки объектов, камеры и фона. Он следует конвейеру слоев-редактирования-композитинга: (i) сегментация и преобразование визуальных входных данных в редактируемые 3D-сущности (слои), (ii) их редактирование в Blender с использованием 3D-ориентированного управления (редактирование) и (iii) их объединение в согласованную сцену с помощью генеративного композитора (композитинг). Наш генеративный композитор расширяет предварительно обученную диффузионную модель для параллельной обработки как исходной (source), так и отредактированной (target) сцен. Он дорабатывается на видеокадрах с использованием двух ключевых стратегий обучения: (i) маскирование исходных данных, позволяющее гибкие модификации, такие как замена фона; (ii) симулированное дрожание объектов, способствующее раздельному управлению объектами и камерой. BlenderFusion значительно превосходит предыдущие методы в задачах сложного композиционного редактирования сцен.
В данной статье мы представляем LLaVA-Scissor — стратегию сжатия токенов, не требующую обучения, разработанную для видео-мультимодальных больших языковых моделей. Предыдущие методы в основном пытаются сжимать токены на основе оценок внимания, но не способны эффективно охватить все семантические области и часто приводят к избыточности токенов. В отличие от них, мы предлагаем использовать подход Semantic Connected Components (SCC), который распределяет токены по различным семантическим областям внутри набора токенов, обеспечивая полное семантическое покрытие. В результате получается двухэтапная стратегия пространственно-временного сжатия токенов, использующая SCC как в пространственной, так и во временной областях. Эта стратегия позволяет эффективно сжимать токены, представляя всё видео набором непересекающихся семантических токенов. Мы проводим обширные оценки возможностей сжатия токенов LLaVA-Scissor на различных бенчмарках для понимания видео, включая ответы на вопросы по видео, понимание длинных видео и комплексные бенчмарки с множественным выбором. Экспериментальные результаты показывают, что предложенный LLaVA-Scissor превосходит другие методы сжатия токенов, демонстрируя превосходную производительность на различных бенчмарках для понимания видео, особенно при низких коэффициентах удержания токенов. Страница проекта: https://github.com/HumanMLLM/LLaVA-Scissor.
Достижение точного контроля над идентичностью объекта и семантическими атрибутами (поза, стиль, освещение) в генерации изображений из текста, особенно для нескольких объектов, часто снижает редактируемость и согласованность моделей Diffusion Transformers (DiTs). Многие подходы приводят к появлению артефактов или страдают от переплетения атрибутов. Для преодоления этих проблем мы предлагаем новую модель управляемой генерации для нескольких объектов — XVerse. Преобразуя эталонные изображения в смещения для модуляции текстового потока, специфичного для токенов, XVerse позволяет осуществлять точный и независимый контроль над конкретным объектом, не нарушая латентные представления или признаки изображения. В результате XVerse обеспечивает синтез изображений с высокой точностью и возможностью редактирования для нескольких объектов, с надежным контролем над индивидуальными характеристиками и семантическими атрибутами каждого объекта. Это достижение значительно улучшает возможности персонализированной и сложной генерации сцен.
Кинематография, являющаяся фундаментальным визуальным языком кино, играет ключевую роль в передаче повествования, эмоций и эстетического качества. Хотя современные модели обработки визуальной и языковой информации (Vision-Language Models, VLMs) демонстрируют высокий уровень общего визуального понимания, их способность к восприятию тонкой кинематографической грамматики, заложенной в отдельных кадрах, остается малоизученной и недостаточно оцененной. Этот критический пробел ограничивает как детальное визуальное понимание, так и точность генерации видео с использованием искусственного интеллекта. Для решения этой проблемы мы представляем ShotBench — всеобъемлющий бенчмарк, специально разработанный для понимания кинематографического языка. Он включает более 3,5 тысяч экспертно аннотированных пар вопросов и ответов, основанных на изображениях и видеоклипах, тщательно отобранных из более чем 200 признанных (преимущественно номинированных на «Оскар») фильмов и охватывающих восемь ключевых аспектов кинематографии. Наша оценка 24 ведущих моделей VLMs на ShotBench выявила их существенные ограничения: даже лучшая модель демонстрирует среднюю точность менее 60%, особенно затрудняясь с детальными визуальными подсказками и сложным пространственным анализом. Для стимулирования прогресса в этой области мы создаем ShotQA — крупномасштабный мультимодальный набор данных, содержащий около 70 тысяч кинематографических пар вопросов и ответов. Используя ShotQA, мы разрабатываем ShotVL с помощью контролируемого тонкого обучения и оптимизации групповой относительной политики. ShotVL значительно превосходит все существующие открытые и проприетарные модели на ShotBench, устанавливая новый уровень производительности. Мы открываем доступ к нашим моделям, данным и коду для ускорения прогресса в этой важной области понимания и генерации кинематографического контента с использованием искусственного интеллекта.
Задачи плотного предсказания играют важную роль в компьютерном зрении, направленные на обучение пиксельной аннотации меток для входного изображения. Несмотря на достижения в этой области, существующие методы в основном сосредоточены на идеализированных условиях, обладая ограниченной обобщаемостью для реальных сценариев и сталкиваясь с проблемой недостатка реальных данных. Для систематического изучения этой проблемы мы сначала представляем DenseWorld — эталонный набор, охватывающий широкий спектр из 25 задач плотного предсказания, соответствующих актуальным реальным приложениям, с унифицированной оценкой для всех задач. Затем мы предлагаем DenseDiT, который максимально использует визуальные априорные знания генеративных моделей для выполнения разнообразных задач плотного предсказания в реальных условиях через единую стратегию. DenseDiT сочетает механизм повторного использования параметров и два легковесных блока, которые адаптивно интегрируют контекст на разных масштабах, работая с менее чем 0,1% дополнительных параметров. Оценка на DenseWorld выявила значительное снижение производительности существующих общих и специализированных базовых методов, подчеркивая их ограниченную обобщаемость для реальных условий. В отличие от них, DenseDiT демонстрирует превосходные результаты, используя менее 0,01% обучающих данных базовых методов, что подчеркивает его практическую ценность для реального применения. Наши данные, контрольные точки и коды доступны по адресу https://xcltql666.github.io/DenseDiTProj.
Внутренние модели мира (World Models, WMs) позволяют агентам понимать состояние мира и предсказывать его изменения, служа основой для сложного рассуждения. Современные крупные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), такие как OpenAI o3, GPT-4o и Gemini, демонстрируют потенциал в качестве универсальных WMs. Хотя последние исследования оценили и выявили ограничения в конкретных способностях, таких как визуальное понимание, систематическая оценка фундаментальных возможностей VLMs как WMs до сих пор отсутствует. Опираясь на сравнительную психологию и когнитивную науку, мы предлагаем двухэтапную структуру, которая оценивает Восприятие (визуальное, пространственное, временное, количественное и движение) и Предсказание (механистическое моделирование, транзитивный вывод, композиционный вывод), чтобы провести атомарную оценку VLMs как WMs. Руководствуясь этой структурой, мы представляем WM-ABench — крупномасштабный бенчмарк, включающий 23 детализированных измерения оценки в 6 разнообразных симулированных средах с контролируемыми контрфактуальными симуляциями. Проведя 660 экспериментов на 15 последних коммерческих и открытых VLMs, мы обнаружили, что эти модели демонстрируют значительные ограничения в базовых способностях моделирования мира. Например, почти все модели показывают точность, близкую к случайной, при различении траекторий движения. Кроме того, им не хватает разделенного понимания — например, некоторые модели склонны считать, что синие объекты движутся быстрее, чем зеленые. Более подробные результаты и анализ выявляют существенные разрывы между VLMs и человеческим уровнем моделирования мира.
Робототехника достигла значительных успехов в области аппаратного обеспечения — от соревнований DARPA Urban и Robotics Challenges до первого турнира по кикбоксингу с участием человекоподобных роботов, — однако коммерческая автономия всё ещё отстаёт от прогресса в машинном обучении. Основным узким местом является программное обеспечение: современные стеки робототехники требуют длительного обучения, глубоких знаний C/C++, фрагментированных инструментов и сложной интеграции с аппаратным обеспечением, что резко контрастирует с Python-ориентированными, хорошо документированными экосистемами, которые способствовали развитию современного ИИ. Мы представляем ARK — открытый фреймворк для робототехники, ориентированный на Python, который призван устранить этот разрыв. ARK предлагает интерфейс среды в стиле Gym, позволяющий пользователям собирать данные, предобрабатывать их и обучать политики с использованием передовых алгоритмов обучения с подражанием (например, ACT, Diffusion Policy), при этом легко переключаясь между высокоточной симуляцией и физическими роботами. Лёгкая архитектура клиент-сервер обеспечивает сетевое взаимодействие по модели издатель-подписчик, а опциональные привязки C/C++ гарантируют производительность в реальном времени при необходимости. ARK поставляется с переиспользуемыми модулями для управления, SLAM, планирования движения, идентификации систем и визуализации, а также с поддержкой взаимодействия с ROS. Подробная документация и кейсы — от манипуляций до мобильной навигации — демонстрируют быструю разработку прототипов, лёгкую замену аппаратного обеспечения и сквозные процессы, которые по удобству сопоставимы с основными рабочими процессами машинного обучения. Объединяя практики робототехники и ИИ под общим Python-ориентированным подходом, ARK снижает барьеры для входа и ускоряет исследования и коммерческое внедрение автономных роботов.
Появление архитектуры Mixture of Experts (MoE) в крупных языковых моделях обещает низкую стоимость выполнения при значительно большем количестве параметров модели и её обучающей способности, поскольку для каждого входного токена активируется лишь небольшая часть параметров. Однако часто наблюдается, что некоторые эксперты активируются гораздо чаще других, что приводит к неэффективности системы при параллельном выполнении экспертов на разных устройствах. Поэтому мы представляем Mixture of Grouped Experts (MoGE), которая группирует экспертов во время выбора и естественным образом лучше балансирует нагрузку между экспертами, чем MoE. Она ограничивает активацию токенов равным количеством экспертов внутри каждой предопределённой группы экспертов. Когда выполнение модели распределяется на несколько устройств, этот архитектурный подход обеспечивает сбалансированную вычислительную нагрузку между устройствами, значительно повышая пропускную способность, особенно на этапе вывода. Кроме того, мы создали Pangu Pro MoE на базе Ascend NPU — разреженную модель, основанную на MoGE, с общим количеством параметров 72 миллиарда, из которых 16 миллиардов активируются для каждого токена. Конфигурация Pangu Pro MoE оптимизирована для Ascend 300I Duo и 800I A2 с помощью обширных исследований системного моделирования. Наши эксперименты показывают, что MoGE действительно приводит к лучшему балансированию нагрузки между экспертами и более эффективному выполнению как для обучения, так и для вывода модели на Ascend NPU. Производительность вывода Pangu Pro MoE достигает 1148 токенов/с на карту и может быть дополнительно увеличена до 1528 токенов/с на карту с помощью спекулятивного ускорения, превосходя сопоставимые плотные модели с 32B и 72B параметрами. Кроме того, мы достигаем отличного соотношения стоимости и производительности для вывода модели на Ascend 300I Duo. Наши исследования показывают, что Ascend NPU способны обучать Pangu Pro MoE с массовым параллелизмом, что делает её ведущей моделью в классе с общим количеством параметров менее 100B, превосходя известные открытые модели, такие как GLM-Z1-32B и Qwen3-32B.
Последние достижения в области глубокого генеративного моделирования открыли беспрецедентные возможности для синтеза видео. Однако в реальных приложениях пользователи часто ищут инструменты, которые позволяют точно и последовательно реализовывать их творческие замыслы при редактировании. Несмотря на прогресс, достигнутый существующими методами, обеспечение детального соответствия намерениям пользователя остается открытой и сложной проблемой. В данной работе мы представляем Shape-for-Motion — новый фреймворк, который использует 3D-прокси для точного и последовательного редактирования видео. Shape-for-Motion достигает этого путем преобразования целевого объекта во входном видео в временно-согласованную сетку, то есть 3D-прокси, что позволяет выполнять редактирование непосредственно на прокси, а затем переносить изменения обратно на кадры видео. Для упрощения процесса редактирования мы разработали новую стратегию Dual-Propagation, которая позволяет пользователю выполнять изменения на 3D-сетке одного кадра, после чего эти изменения автоматически распространяются на 3D-сетки других кадров. 3D-сетки для различных кадров далее проецируются в 2D-пространство для создания отредактированных геометрии и текстур, которые служат входными данными для декомпозированной модели диффузии видео для генерации отредактированных результатов. Наш фреймворк поддерживает различные точные и физически-согласованные манипуляции на протяжении кадров видео, включая редактирование позы, вращение, масштабирование, перемещение, изменение текстуры и композицию объектов. Наш подход представляет собой важный шаг на пути к созданию высококачественных и контролируемых процессов редактирования видео. Многочисленные эксперименты демонстрируют превосходство и эффективность нашего подхода. Страница проекта: https://shapeformotion.github.io/
Современные модели обработки зрения и языка (Vision-Language Models, VLMs) испытывают трудности с тонким пространственным рассуждением, особенно когда требуются многошаговая логика и точное пространственное выравнивание. В данной работе мы представляем SpatialReasoner-R1, модель рассуждений, объединяющую зрение и язык, разработанную для преодоления этих ограничений. Для создания высококачественного обучающего материала для пространственного рассуждения мы разработали метод Монте-Карло дерева поиска с использованием нескольких моделей (Multi-Model Monte Carlo Tree Search, M3CTS), который генерирует разнообразные, логически согласованные траектории рассуждений с длинной цепочкой мыслей (Long Chain-of-Thought, LongCoT). Кроме того, мы предлагаем метод тонкой оптимизации прямых предпочтений (fine-grained Direct Preference Optimization, fDPO), который вводит сегментно-специфичную гранулярность предпочтений для описательного обоснования и логического рассуждения, руководствуясь пространственным механизмом вознаграждения, оценивающим кандидатные ответы на основе визуальной согласованности, пространственного обоснования и логической связности. Экспериментальные результаты показывают, что fDPO обеспечивает среднее улучшение на 4,1% по сравнению со стандартным DPO в задачах оценки пространственного качества и на 9,0% в задачах оценки пространственного количества. Модель SpatialReasoner-R1, обученная с использованием fDPO, устанавливает новый рекорд на бенчмарке SPATIALRGPT-Bench, превосходя самый сильный базовый уровень на 9,8% по средней точности, сохраняя при этом конкурентоспособные результаты в общих задачах обработки зрения и языка.
В данной работе исследуется возможность включения цепочек рассуждений (Chain-of-Thought, CoT) для установления связей между визуальными подсказками на нескольких изображениях. Простое решение заключается в адаптации обучения с подкреплением на основе правил для моделей, объединяющих зрение и язык (Vision-Language Models, VLMs). Однако такие методы обычно полагаются на вручную подобранные пары вопросов и ответов, что может быть особенно сложным при работе с мелкими визуальными деталями и сложной логикой, охватывающей несколько изображений. Вдохновленные самообучением визуальных представлений, мы отмечаем, что изображения содержат внутренние ограничения, которые могут служить источником контроля. На основе этого наблюдения мы создаем тройки изображений, состоящие из двух аугментированных версий одного изображения и третьего, похожего, но отличного изображения. В процессе обучения модель побуждается генерировать процесс рассуждения для сравнения этих изображений (например, определить, одинаковы они или различны). Затем мы оптимизируем модель с помощью обучения с подкреплением на основе правил. Благодаря высокой визуальной схожести и наличию аугментаций модель должна обращать внимание на тонкие визуальные изменения и выполнять логические рассуждения для успешного выполнения задачи. Эксперименты показывают, что, несмотря на обучение исключительно на задачах визуального сравнения, приобретенные способности к рассуждению эффективно обобщаются на широкий спектр вопросов. Без использования каких-либо аннотированных человеком пар вопросов и ответов наш метод демонстрирует значительные улучшения на тестах для рассуждений на основе нескольких изображений и показывает высокую производительность на общих задачах компьютерного зрения.
Быстрое развитие крупных языковых моделей (LLM) имеет потенциал для содействия научному прогрессу. Ключевой способностью для достижения этой цели является возможность воспроизведения существующих работ. Чтобы оценить способность ИИ-агентов воспроизводить результаты в активной области исследований, мы представляем Automated LLM Speedrunning Benchmark, используя вклад научного сообщества в рамках NanoGPT speedrun — соревнования по обучению модели GPT-2 за минимальное время. Каждая из 19 задач speedrun предоставляет агенту скрипт обучения предыдущих рекордов, опционально дополненный одним из трех форматов подсказок, начиная от псевдокода и заканчивая описаниями, похожими на научные статьи, с улучшениями новых рекордов. Рекорды выполняются быстро по замыслу, а улучшения в speedrun охватывают разнообразные изменения на уровне кода, от высокоуровневых алгоритмических улучшений до оптимизаций с учетом аппаратного обеспечения. Эти особенности делают бенчмарк как доступным, так и реалистичным для передовой задачи улучшения обучения LLM. Мы обнаруживаем, что современные LLM с возможностями рассуждения в сочетании с передовыми структурами (scaffolds) испытывают трудности с повторной реализацией уже известных инноваций в нашем бенчмарке, даже при наличии подробных подсказок. Таким образом, наш бенчмарк предоставляет простую, не насыщенную меру способности LLM автоматизировать научное воспроизведение — необходимый (но не достаточный) навык для автономного исследовательского агента.
Могут ли модели, объединяющие зрение и язык (Vision Language Models, VLMs), представить полную сцену по нескольким видам, как это делают люди? Люди формируют пространственные ментальные модели — внутренние представления невидимого пространства — для рассуждений о компоновке, перспективе и движении. Наш новый бенчмарк MindCube, содержащий 21 154 вопроса по 3 268 изображениям, выявляет этот критический пробел: существующие VLMs демонстрируют близкое к случайному качество работы. Используя MindCube, мы систематически оцениваем, насколько хорошо VLMs строят устойчивые пространственные ментальные модели, представляя позиции (когнитивное картографирование), ориентации (принятие перспективы) и динамику (ментальное моделирование для "что, если" движений). Затем мы исследуем три подхода, помогающие VLMs приблизиться к пространственным ментальным моделям, включая невидимые промежуточные виды, цепочки рассуждений на естественном языке и когнитивные карты. Значительное улучшение достигается за счет синергетического подхода "карта-затем-рассуждение", который совместно обучает модель сначала генерировать когнитивную карту, а затем рассуждать на её основе. Обучая модели рассуждать над этими внутренними картами, мы повысили точность с 37,8% до 60,8% (+23,0%). Добавление обучения с подкреплением ещё больше увеличило производительность до 70,7% (+32,9%). Наше ключевое понимание заключается в том, что такое структурирование пространственных ментальных моделей — активное построение и использование внутренних структурированных пространственных представлений с гибкими процессами рассуждения — значительно улучшает понимание ненаблюдаемого пространства.
Мультимодальное обучение в контексте (ICL) остается недостаточно изученным, несмотря на значительный потенциал для таких областей, как медицина. Клиницисты регулярно сталкиваются с разнообразными специализированными задачами, требующими адаптации на основе ограниченного числа примеров, таких как извлечение выводов из нескольких релевантных предыдущих случаев или рассмотрение ограниченного набора дифференциальных диагнозов. Хотя мультимодальные большие языковые модели (MLLMs) продемонстрировали прогресс в медицинском визуальном вопросе-ответе (VQA), их способность обучаться мультимодальным задачам из контекста остается в значительной степени неизученной. Мы представляем SMMILE — первый экспертно-ориентированный мультимодальный бенчмарк ICL для медицинских задач. Одиннадцать медицинских экспертов разработали задачи, каждая из которых включает мультимодальный запрос и мультимодальные примеры в контексте в качестве демонстраций задачи. SMMILE охватывает 111 задач (517 триплетов вопрос-изображение-ответ), охватывающих 6 медицинских специальностей и 13 методов визуализации. Мы также представляем SMMILE++ — расширенный вариант с 1038 перестановленными задачами. Комплексная оценка 15 MLLMs показывает, что большинство моделей демонстрируют умеренную или низкую способность к мультимодальному ICL в медицинских задачах. В открытых оценках ICL обеспечивает лишь 8% среднего улучшения по сравнению с нулевым обучением на SMMILE и 9,4% на SMMILE++. Мы наблюдаем уязвимость к нерелевантным примерам в контексте: даже один шумный или нерелевантный пример может снизить производительность до 9,5%. Кроме того, порядок примеров демонстрирует склонность к недавним данным: размещение наиболее релевантного примера в конце может привести к значительному улучшению производительности до 71%. Наши результаты подчеркивают критические ограничения и предубеждения в текущих MLLMs при обучении мультимодальным медицинским задачам из контекста.
Недавние исследования, посвященные анализу обучения в контексте (in-context learning, ICL), выявили широкий набор стратегий, описывающих поведение моделей в различных экспериментальных условиях. Мы стремимся объединить эти результаты, задаваясь вопросом, почему модель изначально обучается этим различным стратегиям. В частности, мы начинаем с наблюдения, что при обучении на смеси задач, что является распространенным подходом в литературе, стратегии, усвоенные моделью для выполнения ICL, могут быть описаны семейством байесовских предсказателей: запоминающего предсказателя, который предполагает дискретное априорное распределение на множестве виденных задач, и обобщающего предсказателя, где априорное распределение соответствует базовому распределению задач. Принимая нормативную перспективу рационального анализа, где поведение обучающегося объясняется как оптимальная адаптация к данным с учетом вычислительных ограничений, мы разрабатываем иерархическую байесовскую модель, которая почти идеально предсказывает предсказания следующего токена в Transformer на протяжении всего обучения — без предположения о доступе к его весам. В рамках этой модели предобучение рассматривается как процесс обновления апостериорной вероятности различных стратегий, а поведение на этапе вывода — как взвешенное по апостериорной вероятности среднее предсказаний этих стратегий. Наша модель опирается на общие предположения о динамике обучения нейронных сетей, которые явно выражают компромисс между ошибкой и сложностью среди кандидатных стратегий: помимо того, насколько хорошо стратегия объясняет данные, предпочтение модели к реализации стратегии определяется ее сложностью. Это помогает объяснить известные феномены ICL, одновременно предлагая новые предсказания: например, мы демонстрируем суперлинейный тренд во временной шкале перехода от обобщения к запоминанию по мере увеличения разнообразия задач. В целом, наша работа продвигает объяснительный и предсказательный подход к ICL, основанный на компромиссах между ошибкой стратегии и ее сложностью.
Мы представляем Gazal-R1, языковую модель с 32 миллиардами параметров, которая демонстрирует наилучшие результаты в области медицинского мышления, предоставляя прозрачные пошаговые объяснения для принятия клинических решений. Построенная на основе Qwen3 32B, наша модель показывает, что стратегическое обучение позволяет моделям среднего размера превосходить значительно более крупные аналоги в специализированных областях. Мы разработали инновационный двухэтапный процесс обучения: сначала, контролируемое тонкое обучение на тщательно отобранном наборе данных из 107 033 синтетических примеров медицинского мышления, которое обучает структурированному клиническому мышлению, усиленному передовыми параметрически эффективными методами, включая Weight-Decomposed Low-Rank Adaptation (DoRA) и Rank-Stabilized LoRA (rsLoRA); затем, обучение с подкреплением с использованием Group Relative Policy Optimization (GRPO) с многоуровневой системой вознаграждений, которая улучшает точность, соблюдение формата и качество рассуждений. Gazal-R1 демонстрирует выдающиеся результаты на медицинских тестах, достигая 87,1% на MedQA, 81,6% на MMLU Pro (Medical) и 79,6% на PubMedQA, превосходя модели, которые в 12 раз крупнее. Помимо сильных эмпирических результатов, эта работа предоставляет детальные инсайты о проблемах обучения моделей, способных к рассуждениям в специализированных областях, включая вопросы с манипуляцией вознаграждениями, нестабильностью обучения и фундаментальное противоречие между точным воспроизведением фактов и детальным рассуждением. Наша методология предлагает воспроизводимую структуру для разработки высокопроизводительных, специализированных языковых моделей, которые балансируют производительность, эффективность и объяснимость.
Большинство языковых моделей сталкиваются с фундаментальным компромиссом, где мощные возможности требуют значительных вычислительных ресурсов. Мы разрушаем это ограничение с помощью Jan-nano, языковой модели с 4 миллиардами параметров, которая переопределяет эффективность благодаря радикальной специализации: вместо того чтобы пытаться знать всё, она овладевает искусством мгновенного поиска информации. Настроенная на основе Qwen3-4B с использованием нашей инновационной многоэтапной системы RLVR, которая полностью устраняет зависимость от обучения предсказания следующего токена (SFT), Jan-nano достигает 83,2% на бенчмарке SimpleQA с интеграцией MCP, работая на потребительском оборудовании. С длиной контекста в 128 тысяч токенов Jan-nano доказывает, что интеллект заключается не в масштабе, а в стратегии.
Стремление к созданию эффективного и управляемого высококачественного контента остается ключевой задачей в области генерации контента с использованием искусственного интеллекта (AIGC). Хотя одношаговые генераторы, основанные на методах дистилляции диффузии, обеспечивают превосходное качество генерации и вычислительную эффективность, их адаптация к новым управляющим условиям — таким как структурные ограничения, семантические указания или внешние входные данные — представляет собой значительную проблему. Традиционные подходы часто требуют дорогостоящих вычислительных модификаций базовой модели и последующей дистилляции диффузии. В данной статье представлен метод Noise Consistency Training (NCT), новый и легковесный подход, который позволяет напрямую интегрировать новые управляющие сигналы в предварительно обученные одношаговые генераторы без необходимости доступа к исходным обучающим изображениям или переобучения базовой модели диффузии. NCT работает путем введения адаптерного модуля и использования функции потерь согласованности шума в пространстве шума генератора. Эта функция потерь согласует поведение адаптированной модели при генерации для шумов, которые условно зависят в различной степени, неявно направляя модель на соблюдение новых управляющих условий. Теоретически эту цель обучения можно интерпретировать как минимизацию распределительного расстояния между адаптированным генератором и условным распределением, индуцированным новыми условиями. NCT является модульным, эффективным по данным и легко внедряемым, полагаясь только на предварительно обученный одношаговый генератор и модель управляющего сигнала. Многочисленные эксперименты демонстрируют, что NCT достигает передовых результатов в управляемой генерации за один прямой проход, превосходя существующие многошаговые и основанные на дистилляции методы как по качеству генерации, так и по вычислительной эффективности. Код доступен по адресу https://github.com/Luo-Yihong/NCT.
Мы представляем Confucius3-Math — открытую языковую модель с 14 миллиардами параметров, которая (1) эффективно работает на одном потребительском графическом процессоре; (2) демонстрирует наилучшие результаты (SOTA) на широком спектре задач математического рассуждения, превосходя многие модели значительно большего размера. В рамках нашей миссии по улучшению образования и распространения знаний с помощью ИИ, Confucius3-Math специально ориентирована на изучение математики китайскими школьниками и преподавателями K-12. Модель создана с использованием пост-обучения на основе масштабного обучения с подкреплением (RL) и соответствует национальной учебной программе, превосходно справляясь с решением типичных задач китайской школьной математики K-12 при низких затратах. В этом отчете мы делимся нашим подходом к разработке, трудностями, с которыми столкнулись, и методами, которые разработали для их преодоления. В частности, мы представляем три технических новшества: Целевая регуляризация энтропии, Восстановление недавних образцов и Взвешивание сложности для конкретной политики. Эти инновации включают новую регуляризацию энтропии, оригинальную политику планирования данных и улучшенный оценщик группового относительного преимущества. В совокупности они значительно стабилизируют обучение с подкреплением, повышают эффективность использования данных и улучшают производительность. Наша работа демонстрирует возможность создания мощных моделей рассуждений в конкретной области при низких затратах. Мы открываем исходный код модели и её реализации по адресу https://github.com/netease-youdao/Confucius3-Math.
Во многих отраслях прогнозирование метрических показателей крупных систем является фундаментальной задачей, которая в основном решается с помощью традиционной табличной регрессии. Однако такие методы сталкиваются с трудностями при работе со сложными системными данными, такими как конфигурационные файлы или системные логи, где разработка признаков часто оказывается невозможной. Мы предлагаем текстовую регрессию как универсальную и масштабируемую альтернативу. Для прогнозирования эффективности использования ресурсов в Borg, масштабной системе планирования вычислительных кластеров Google, модель с 60 миллионами параметров, обученная с нуля, достигает почти идеального коэффициента ранговой корреляции 0.99 (в среднем 0.9) для всего парка и в 100 раз меньшей среднеквадратичной ошибки по сравнению с табличными подходами. Модель также легко адаптируется к новым задачам всего на 500 примерах с малым количеством данных и точно воспроизводит плотности сложных распределений результатов. Абляционные исследования подчеркивают важность использования кодировщиков, увеличения длины последовательностей и встроенной оценки неопределенности модели. Эти результаты открывают путь к созданию универсальных симуляторов реальных исходов.
Современные крупные языковые модели, такие как серии LLaMA, Qwen и DeepSeek, преимущественно используют архитектуру Transformer с Pre-LayerNorm (Pre-LN). Хотя Pre-LN демонстрирует стабильность в процессе предварительного обучения и масштабируемость до больших размеров моделей, она страдает от экспоненциального роста дисперсии активаций между слоями, что приводит к доминированию остаточного пути над выходами подуровней и ограничивает обучаемость более глубоких слоев. Для решения этой проблемы мы предлагаем Gradient-Preserving Activation Scaling (GPAS) — простую технику, которая может использоваться в сочетании с существующими подходами. GPAS работает за счет уменьшения масштаба промежуточных активаций при сохранении их градиентов неизменными. Это позволяет сохранить информацию в активациях и избежать проблемы исчезновения градиентов, связанной с уменьшением их масштаба. Многочисленные эксперименты на моделях различных размеров от 71 млн до 1 млрд параметров показывают, что GPAS обеспечивает стабильное улучшение производительности. Помимо улучшения Pre-LN Transformers, GPAS также демонстрирует потенциал в усовершенствовании альтернативных архитектур, таких как Sandwich-LN и DeepNorm, что подчеркивает его универсальность и перспективы для улучшения динамики обучения в широком спектре сценариев.
Развитие методов визуализации, таких как оптическая когерентная томография (ОКТ), и прогресс в области глубокого обучения (DL) позволили клиницистам и исследователям упростить стадирование заболеваний сетчатки. Одним из популярных подходов в DL является самообучение (SSL), при котором модели обучаются на больших объемах немаркированных данных, избегая дорогостоящей аннотации. SSL способствовал разработке базовых моделей (FMs) — крупных моделей, которые могут быть использованы для решения различных задач. Однако существующие FMs для ОКТ, обученные исключительно на изображениях, демонстрируют недостаточное и неполное семантическое понимание изображений, что подтверждается их производительностью на задачах (особенно сложных), и, следовательно, требуют контролируемой дообучки (что может быть неосуществимо) для лучшей адаптации к конкретным приложениям и популяциям. Для решения этой проблемы мы предлагаем RetFiner — схему SSL-уточнения на основе визуально-текстовых данных, которая улучшает представления существующих FMs и позволяет их эффективную и прямую адаптацию к конкретным популяциям для повышения производительности на задачах. Наш метод использует разнообразные обучающие цели, которые учитывают богатый сигнал надзора, содержащийся в текстовых данных. Мы протестировали RetFiner на базовых моделях для сетчатки RETFound, UrFound и VisionFM, показав значительное улучшение производительности при линейном зондировании на семи разнообразных задачах классификации ОКТ, с увеличением среднего показателя на 5,8, 3,9 и 2,1 процентных пункта по сравнению с их базовыми значениями соответственно. Наш код и веса модели доступны по адресу https://github.com/ronnief1/RetFiner.
Изучение иерархической структуры данных в моделях, объединяющих зрение и язык, представляет собой значительную проблему. Предыдущие работы пытались решить эту задачу с помощью обучения на основе импликации. Однако эти подходы не учитывают явно транзитивную природу импликации, которая устанавливает связь между порядком и семантикой в пространстве представлений. В данной работе мы представляем Radial Cross-Modal Embeddings (RCME) — фреймворк, который позволяет явно моделировать транзитивную импликацию. Наш предложенный фреймворк оптимизирует частичный порядок концепций в моделях, объединяющих зрение и язык. Используя этот фреймворк, мы разрабатываем иерархическую базовую модель для задач, связанных с зрением и языком, способную представлять иерархию в Древе Жизни. Наши эксперименты по иерархической классификации видов и иерархическому поиску демонстрируют улучшенную производительность наших моделей по сравнению с современными аналогами. Наш код и модели доступны по адресу https://vishu26.github.io/RCME/index.html.
Мы представляем TAPAS (Task-based Adaptation and Planning using AgentS) — многоагентную платформу, которая интегрирует большие языковые модели (LLM) с символическим планированием для решения сложных задач без необходимости ручного определения моделей среды. TAPAS использует специализированных агентов на основе LLM, которые совместно генерируют и адаптируют модели доменов, начальные состояния и спецификации целей по мере необходимости с помощью структурированных механизмов вызова инструментов. Благодаря такому инструментальному взаимодействию, агенты нижнего уровня могут запрашивать изменения у агентов верхнего уровня, что позволяет адаптироваться к новым атрибутам и ограничениям без ручного переопределения домена. Агент выполнения в стиле ReAct (Reason+Act), дополненный переводом планов на естественный язык, устраняет разрыв между динамически генерируемыми планами и реальными возможностями роботов. TAPAS демонстрирует высокую производительность в эталонных доменах планирования и в симулированной среде VirtualHome, моделирующей реальный мир.
Вычислительные ресурсы на этапе тестирования стали мощной парадигмой для повышения производительности больших языковых моделей (LLM), где генерация нескольких выходных данных или уточнение отдельных цепочек могут значительно повысить точность ответов. Однако существующие методы, такие как Best-of-N, мажоритарное голосование и саморефлексия, обычно применяют рассуждения единообразно для всех входных данных, игнорируя тот факт, что разные задачи могут требовать различной глубины рассуждений. В данной работе мы предлагаем Fractional Reasoning (Дробное Рассуждение) — не требующий обучения и независимый от модели фреймворк, который обеспечивает непрерывный контроль над интенсивностью рассуждений на этапе вывода, выходя за рамки ограничений фиксированных инструктивных подсказок. Наш метод работает путем извлечения латентного вектора управления, связанного с более глубокими рассуждениями, и его повторного применения с настраиваемым коэффициентом масштабирования, что позволяет модели адаптировать процесс рассуждений к сложности каждого входного запроса. Это поддерживает два ключевых режима масштабирования на этапе тестирования: (1) улучшение качества выходных данных в стратегиях, основанных на широте (например, Best-of-N, мажоритарное голосование), и (2) повышение корректности отдельных цепочек рассуждений в стратегиях, основанных на глубине (например, саморефлексия). Эксперименты на наборах данных GSM8K, MATH500 и GPQA демонстрируют, что Fractional Reasoning стабильно улучшает производительность в разнообразных задачах рассуждений и моделях.