Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

ShareGPT-4o-Image: Согласование мультимодальных моделей с генерацией изображений уровня GPT-4o
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

Jun 22, 2025

Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang

623

Последние достижения в области мультимодальных генеративных моделей открыли возможность создания фотореалистичных изображений, соответствующих текстовым инструкциям, однако ведущие системы, такие как GPT-4o-Image, остаются проприетарными и недоступными. Чтобы демократизировать эти возможности, мы представляем ShareGPT-4o-Image — первый набор данных, включающий 45K примеров для генерации изображений из текста и 46K примеров для генерации изображений из текста и изображения, все из которых синтезированы с использованием возможностей генерации изображений GPT-4o для извлечения её передовых способностей в этой области. Используя этот набор данных, мы разработали Janus-4o — мультимодальную большую языковую модель, способную как к генерации изображений из текста, так и из текста и изображения. Janus-4o не только значительно улучшает генерацию изображений из текста по сравнению с её предшественником, Janus-Pro, но и впервые поддерживает генерацию изображений из текста и изображения. Примечательно, что она демонстрирует впечатляющие результаты в генерации изображений из текста и изображения с нуля, используя всего 91K синтетических образцов и 6 часов обучения на машине с 8 GPU A800. Мы надеемся, что выпуск ShareGPT-4o-Image и Janus-4o будет способствовать открытым исследованиям в области фотореалистичной генерации изображений, соответствующих инструкциям.

FineWeb2: Единый конвейер для масштабирования — адаптация обработки данных предварительного обучения для всех языков
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

Jun 26, 2025

Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf

461

Предварительное обучение современных крупных языковых моделей (LLM) требует огромных объемов чистых и разнообразных текстовых данных. Хотя открытая разработка крупных высококачественных наборов данных для предварительного обучения на английском языке в последнее время достигла значительного прогресса, обучение эффективных многоязычных LLM остается сложной задачей, во многом из-за присущих трудностей адаптации конвейеров фильтрации и дедупликации для большого количества языков. В данной работе мы представляем новый конвейер подготовки наборов данных для предварительного обучения, основанный на FineWeb, который может быть автоматически адаптирован для поддержки любого языка. Мы тщательно анализируем наши решения по проектированию конвейера на наборе из девяти разнообразных языков, руководствуясь набором значимых и информативных оценочных задач, которые были выбраны с использованием нового процесса отбора, основанного на измеримых критериях. В конечном итоге мы показываем, что наш конвейер может быть использован для создания неанглоязычных корпусов, которые позволяют обучать более эффективные модели по сравнению с предыдущими наборами данных. Мы также представляем простой и принципиальный подход к перебалансировке наборов данных, учитывающий как количество дубликатов, так и качество, что обеспечивает дополнительное повышение производительности. Наконец, мы масштабируем наш конвейер на более чем 1000 языков, используя почти 100 снимков Common Crawl, чтобы создать FineWeb2 — новый 20-терабайтный (5 миллиардов документов) многоязычный набор данных, который мы публикуем вместе с нашим конвейером, кодом для обучения и оценки.

Предварительное обучение с защитой от выбросов для устойчивого 4-битного квантования крупных языковых моделей
Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

Jun 24, 2025

Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang

435

Экстремальные выбросы активаций в больших языковых моделях (LLM) критически ухудшают производительность квантования, затрудняя эффективное развертывание на устройствах. Хотя поэлементные операции и адаптивное масштабирование градиентов признаны причинами, практическое устранение этих проблем остается сложной задачей. Мы представляем Outlier-Safe Pre-Training (OSP) — практическое руководство, которое проактивно предотвращает формирование выбросов вместо их последующего устранения. OSP объединяет три ключевых инновации: (1) оптимизатор Muon, устраняющий привилегированные базисы при сохранении эффективности обучения; (2) Single-Scale RMSNorm, предотвращающий поэлементное усиление; и (3) обучаемую проекцию вложений, перераспределяющую величины активаций, возникающие из матриц вложений. Мы проверяем OSP, обучая модель с 1,4 миллиардами параметров на 1 триллионе токенов, что является первой LLM производственного масштаба, обученной без таких выбросов. При агрессивном 4-битном квантовании наша OSP-модель достигает среднего показателя 35,7 по 10 тестам (по сравнению с 26,5 для модели, обученной на Adam), с увеличением времени обучения всего на 2%. Примечательно, что OSP-модели демонстрируют почти нулевой избыточный эксцесс (0,04) по сравнению с экстремальными значениями (1818,56) в стандартных моделях, что принципиально меняет поведение LLM при квантовании. Наша работа показывает, что выбросы не являются неотъемлемой частью LLM, а являются следствием стратегий обучения, открывая путь к более эффективному развертыванию LLM. Исходный код и предобученные контрольные точки доступны по адресу https://github.com/dmis-lab/Outlier-Safe-Pre-Training.

Инвертирование и редактирование: эффективное и быстрое редактирование изображений с помощью моделей цикличной согласованности
Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models

Jun 23, 2025

Ilia Beletskii, Andrey Kuznetsov, Aibek Alanov

411

Последние достижения в области редактирования изображений с использованием диффузионных моделей позволили добиться впечатляющих результатов, обеспечивая детализированный контроль над процессом генерации. Однако эти методы требуют значительных вычислительных ресурсов из-за их итерационной природы. Хотя дистиллированные диффузионные модели позволяют ускорить вывод, их возможности редактирования остаются ограниченными, главным образом из-за низкого качества инверсии. Высококачественная инверсия и реконструкция необходимы для точного редактирования изображений, так как они сохраняют структурную и семантическую целостность исходного изображения. В данной работе мы предлагаем новый подход, который улучшает инверсию изображений с использованием моделей согласованности, позволяя выполнять высококачественное редактирование всего за четыре шага. Наш метод включает стратегию оптимизации цикличной согласованности, которая значительно повышает точность реконструкции и обеспечивает контролируемый баланс между возможностью редактирования и сохранением содержимого. Мы достигаем наилучших результатов в различных задачах редактирования изображений и наборах данных, демонстрируя, что наш метод сопоставим или превосходит полномасштабные диффузионные модели, при этом существенно более эффективен. Код нашего метода доступен на GitHub по адресу https://github.com/ControlGenAI/Inverse-and-Edit.

OctoThinker: Стимуляция в процессе обучения способствует масштабированию обучения с подкреплением
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Jun 25, 2025

Zengzhi Wang, Fan Zhou, Xuefeng Li, Pengfei Liu

391

Различные семейства базовых языковых моделей, такие как Llama и Qwen, демонстрируют различные поведенческие характеристики в процессе пост-обучения с использованием обучения с подкреплением (RL), особенно на задачах, требующих интенсивного логического мышления. Что делает базовую языковую модель подходящей для обучения с подкреплением? Более глубокое понимание этого вопроса крайне важно для разработки масштабируемых базовых моделей следующего поколения. В данной работе мы исследуем, как стратегии промежуточного обучения влияют на динамику RL, сосредоточившись на двух репрезентативных семействах моделей: Qwen и Llama. Наше исследование показывает, что (1) высококачественные математические корпуса, такие как MegaMath-Web-Pro, значительно улучшают как базовую модель, так и производительность RL, в то время как существующие альтернативы (например, FineMath-4plus) не достигают этого; (2) дополнительное добавление данных в формате вопросов и ответов, особенно примеров с длинными цепочками рассуждений (CoT), улучшает результаты RL, а инструктивные данные дополнительно усиливают этот эффект; (3) хотя длинные CoT улучшают глубину рассуждений, они также могут вызывать избыточную многословность ответов модели и нестабильность обучения RL, что подчеркивает важность форматирования данных; (4) масштабирование промежуточного обучения последовательно приводит к более высокой производительности RL на последующих этапах. На основе этих инсайтов мы представляем двухэтапную стратегию промежуточного обучения, Stable-then-Decay, в которой базовые модели сначала обучаются на 200 миллиардах токенов с постоянной скоростью обучения, а затем на 20 миллиардах токенов в трех ветках, ориентированных на CoT, с уменьшением скорости обучения. Это приводит к созданию OctoThinker, семейства моделей, демонстрирующих высокую совместимость с RL и сокращающих разрыв в производительности с более дружественными к RL семействами моделей, такими как Qwen. Мы надеемся, что наша работа поможет сформировать стратегии предварительного обучения для базовых моделей в эпоху RL. Для поддержки дальнейших исследований мы публикуем наши модели с открытым исходным кодом вместе с тщательно отобранным корпусом математических задач, требующих интенсивного логического мышления, объемом более 70 миллиардов токенов (MegaMath-Web-Pro-Max).

DualTHOR: Платформа симуляции гуманоидного робота с двумя манипуляторами для планирования с учетом непредвиденных ситуаций
DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

Jun 19, 2025

Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu

202

Разработка воплощенных агентов, способных выполнять сложные интерактивные задачи в реальных сценариях, остается фундаментальной проблемой в области воплощенного искусственного интеллекта. Хотя недавние достижения в области симуляционных платформ значительно расширили разнообразие задач для обучения воплощенных моделей зрения и языка (VLMs), большинство платформ полагаются на упрощенные морфологии роботов и обходят стохастическую природу низкоуровневого исполнения, что ограничивает их применимость к реальным роботам. Для решения этих проблем мы представляем физически основанную симуляционную платформу DualTHOR для сложных двуруких гуманоидных роботов, построенную на расширенной версии AI2-THOR. Наш симулятор включает в себя модели реальных роботов, набор задач для двуручного взаимодействия и решатели обратной кинематики для гуманоидных роботов. Мы также вводим механизм обработки нештатных ситуаций, который учитывает возможные сбои через физически основанное низкоуровневое исполнение, сокращая разрыв с реальными сценариями. Наш симулятор позволяет проводить более всестороннюю оценку устойчивости и обобщающей способности VLMs в домашних условиях. Обширные оценки показывают, что современные VLMs испытывают трудности с координацией двуручных действий и демонстрируют ограниченную устойчивость в реалистичных условиях с нештатными ситуациями, подчеркивая важность использования нашего симулятора для разработки более эффективных VLMs для воплощенных задач. Код доступен по адресу https://github.com/ds199895/DualTHOR.git.

RoboTwin 2.0: Масштабируемый генератор данных и эталонный тест с сильной рандомизацией домена для устойчивого двуручного роботизированного манипулирования
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

Jun 22, 2025

Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu

161

Синтез данных на основе симуляции стал мощной парадигмой для улучшения манипуляций роботов в реальном мире. Однако существующие синтетические наборы данных остаются недостаточными для надежной двуручной манипуляции из-за двух проблем: (1) отсутствия эффективного, масштабируемого метода генерации данных для новых задач и (2) упрощенных симуляционных сред, которые не учитывают сложность реального мира. Мы представляем RoboTwin 2.0 — масштабируемую симуляционную платформу, которая позволяет автоматизированно генерировать разнообразные и реалистичные данные в больших масштабах, а также предоставляет унифицированные протоколы оценки для двуручной манипуляции. Сначала мы создаем RoboTwin-OD — крупномасштабную библиотеку объектов, включающую 731 экземпляр из 147 категорий, каждый из которых аннотирован семантическими и манипуляционно-релевантными метками. На основе этого мы разрабатываем конвейер синтеза экспертных данных, который сочетает мультимодальные большие языковые модели (MLLMs) с уточнением в цикле симуляции для автоматической генерации кода выполнения задач. Для улучшения переноса из симуляции в реальность RoboTwin 2.0 включает структурированную рандомизацию домена по пяти направлениям: беспорядок, освещение, фон, высота стола и языковые инструкции, что повышает разнообразие данных и устойчивость политик. Мы реализуем эту платформу для 50 двуручных задач, охватывающих пять роботизированных воплощений, и предварительно собираем более 100 000 рандомизированных экспертных траекторий. Эмпирические результаты показывают увеличение успешности генерации кода на 10,9% и улучшение обобщения на новые сценарии реального мира. Модель VLA, дообученная на нашем наборе данных, демонстрирует относительное улучшение на 367% (42,0% против 9,0%) на невидимых задачах в реальных сценах, в то время как модели, обученные с нуля только на наших синтетических данных, показывают относительное улучшение на 228%, что подчеркивает сильное обобщение без надзора в реальном мире. Мы публикуем генератор данных, бенчмарк, набор данных и код для поддержки масштабируемых исследований в области надежной двуручной манипуляции.

HiWave: Генерация изображений высокого разрешения без обучения с использованием вейвлет-базированного диффузионного сэмплирования
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling

Jun 25, 2025

Tobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber

155

Диффузионные модели стали ведущим подходом в синтезе изображений, демонстрируя исключительный фотореализм и разнообразие. Однако обучение диффузионных моделей на высоких разрешениях остается вычислительно затратным, а существующие методы генерации изображений за пределами обучающих разрешений в режиме "zero-shot" часто приводят к артефактам, включая дублирование объектов и пространственную несогласованность. В данной статье мы представляем HiWave, подход без обучения в режиме "zero-shot", который значительно улучшает визуальную точность и структурную согласованность при синтезе изображений сверхвысокого разрешения с использованием предобученных диффузионных моделей. Наш метод использует двухэтапный процесс: генерацию базового изображения с помощью предобученной модели, за которым следует пошаговый DDIM-инверсия и новый модуль улучшения деталей на основе вейвлетов. В частности, мы сначала применяем методы инверсии для получения начальных векторов шума, сохраняющих глобальную согласованность из базового изображения. Затем, в процессе сэмплирования, наш модуль улучшения деталей в вейвлет-области сохраняет низкочастотные компоненты базового изображения для обеспечения структурной согласованности, избирательно направляя высокочастотные компоненты для обогащения мелких деталей и текстур. Обширные оценки с использованием Stable Diffusion XL показывают, что HiWave эффективно устраняет распространенные визуальные артефакты, наблюдаемые в предыдущих методах, достигая превосходного воспринимаемого качества. Пользовательское исследование подтвердило производительность HiWave, где он был предпочтен перед современной альтернативой в более чем 80% сравнений, подчеркивая его эффективность для высококачественного синтеза изображений сверхвысокого разрешения без необходимости переобучения или модификации архитектуры.

Используйте тестирование на основе свойств для объединения генерации и проверки кода с помощью языковых моделей.
Use Property-Based Testing to Bridge LLM Code Generation and Validation

Jun 23, 2025

Lehan He, Zeren Chen, Zhe Zhang, Jing Shao, Xiang Gao, Lu Sheng

101

Крупные языковые модели (LLM) превосходно справляются с генерацией кода, но обеспечение функциональной корректности их выводов, особенно в сложных задачах программирования, остается постоянной проблемой. Хотя традиционная разработка через тестирование (TDD) предлагает путь для улучшения кода, ее эффективность при работе с LLM часто снижается из-за недостатка высококачественных тестовых случаев или недостатков автоматической генерации тестов, включая предвзятые тесты или неточные прогнозы выходных данных, которые могут направить процесс исправления в неправильное русло. В данной статье представлен Property-Generated Solver — новый фреймворк, который использует тестирование на основе свойств (PBT) для проверки высокоуровневых свойств программы или инвариантов, вместо того чтобы полагаться на конкретные примеры входных и выходных данных. Эти свойства зачастую проще определить и проверить, чем напрямую предсказывать исчерпывающие тестовые оракулы, что позволяет разорвать "цикл самообмана", в котором тесты могут разделять недостатки с кодом, который они призваны проверять. Property-Generated Solver использует двух совместно работающих агентов на основе LLM: Генератор, отвечающий за генерацию кода и его итеративное улучшение, и Тестер, который управляет жизненным циклом PBT и формулирует семантически насыщенную обратную связь на основе нарушений свойств. Полученная всесторонняя и полезная обратная связь затем направляет Генератор в его усилиях по улучшению. Устанавливая PBT в качестве основного механизма проверки в рамках этой итеративной, замкнутой парадигмы, Property-Generated Solver предоставляет надежный механизм для направления LLM к более корректному и обобщаемому коду. Результаты обширных экспериментов на нескольких бенчмарках генерации кода демонстрируют, что Property-Generated Solver достигает значительных улучшений в показателе pass@1, с относительным приростом от 23,1% до 37,3% по сравнению с устоявшимися методами TDD.

Мыслительные якоря: Какие шаги рассуждений в больших языковых моделях имеют значение?
Thought Anchors: Which LLM Reasoning Steps Matter?

Jun 23, 2025

Paul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy

Крупные языковые модели, способные к рассуждениям, недавно достигли наилучших результатов во многих областях. Однако их длинные цепочки рассуждений создают проблемы с интерпретируемостью, поскольку каждый сгенерированный токен зависит от всех предыдущих, что затрудняет декомпозицию вычислений. Мы утверждаем, что анализ траекторий рассуждений на уровне предложений является перспективным подходом для понимания процессов рассуждений. Мы представляем три взаимодополняющих метода атрибуции: (1) черный ящик, измеряющий контрфактическую важность каждого предложения путем сравнения итоговых ответов в 100 прогонах, где модель генерирует это предложение или предложение с другим значением; (2) белый ящик, агрегирующий паттерны внимания между парами предложений, который выявил «вещающие» предложения, получающие непропорционально большое внимание от всех последующих предложений через «принимающие» головы внимания; (3) метод причинной атрибуции, измеряющий логические связи между предложениями путем подавления внимания к одному предложению и оценки влияния на токены каждого последующего предложения. Каждый метод предоставляет доказательства существования «якорей мыслей» — шагов рассуждений, которые имеют чрезвычайную важность и непропорционально влияют на последующий процесс рассуждений. Эти якоря мыслей обычно представляют собой предложения, связанные с планированием или возвратом. Мы предоставляем инструмент с открытым исходным кодом (www.thought-anchors.com) для визуализации результатов наших методов и представляем кейс-стади, показывающий сходящиеся паттерны между методами, которые отображают, как модель выполняет многошаговые рассуждения. Согласованность между методами демонстрирует потенциал анализа на уровне предложений для более глубокого понимания моделей рассуждений.

Когда жизнь дает вам выборки: преимущества масштабирования вычислительных ресурсов для вывода в многоязычных языковых моделях
When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs

Jun 25, 2025

Ammar Khairi, Daniel D'souza, Ye Shen, Julia Kreutzer, Sara Hooker

Последние достижения в области больших языковых моделей (LLM) сместили акцент на масштабирование вычислений на этапе вывода, улучшая производительность без необходимости переобучения модели. Распространённый подход заключается в параллельной генерации нескольких выходных данных с последующим выбором одного из них в качестве окончательного результата. Однако до сих пор исследования сосредоточены на английском языке и ограниченном наборе областей, таких как математика и программирование. В отличие от этого, нас больше интересуют методы, которые обобщаются на открытые задачи, формально проверяемые задачи и различные языки. В данной работе мы изучаем, как надёжно масштабировать вычисления на этапе вывода для открытых генеративных задач в условиях многоязычия и многозадачности. Наши результаты показывают, что как стратегия выборки, основанная на вариации температуры, так и стратегия выбора должны быть адаптированы с учётом разнообразия областей и языковых особенностей. Мы оцениваем существующие методы выбора, выявляя, что стратегии, эффективные для английского языка, часто не обобщаются на другие языки. Мы предлагаем новые стратегии выборки и выбора, специально адаптированные для многоязычных и многозадачных сценариев вывода, и демонстрируем, что они обеспечивают значительный прирост производительности для различных языков и задач. В частности, наши комбинированные методы выборки и выбора приводят к среднему увеличению показателя win-rate на +6.8 для наших моделей объёмом 8B на промптах m-ArenaHard-v2.0 по сравнению с проприетарными моделями, такими как Gemini. На более крупных масштабах модель Command-A (111B), оснащённая нашими методами, показывает улучшение win-rate на +9.0 на том же бенчмарке при использовании всего пяти выборок по сравнению с декодированием одной выборки, что представляет собой существенное улучшение при минимальных затратах. Наши результаты подчёркивают необходимость подходов к вычислениям на этапе вывода, учитывающих языковые и задачнозависимые особенности, с целью демократизации улучшений производительности для недостаточно представленных языков.

GPTailor: Обрезка крупных языковых моделей посредством удаления и сшивания слоёв
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

Jun 25, 2025

Guinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации текста. Однако такие впечатляющие возможности обычно сопровождаются значительным размером модели, что создает серьезные трудности при развертывании и выполнении выводов. Хотя структурированное сокращение параметров модели предлагает перспективный способ снижения вычислительных затрат во время развертывания, современные методы в основном сосредоточены на сокращении одной модели. В данной работе мы разрабатываем новую стратегию сжатия моделей путем стратегического объединения или слияния слоев из дообученных вариантов моделей, что сохраняет способности исходной модели за счет агрегирования возможностей, усиленных в различных дообучениях. Мы формулируем оптимальную настройку этих LLM как задачу оптимизации нулевого порядка, используя пространство поиска, которое поддерживает три различные операции: (1) удаление слоев, (2) выбор слоев из различных моделей-кандидатов и (3) слияние слоев. Наши эксперименты показывают, что этот подход приводит к конкурентоспособному сокращению моделей. Например, для семейства моделей Llama2-13B наши сжатые модели сохраняют примерно 97,3% исходной производительности при удалении около 25% параметров, значительно превосходя предыдущие передовые методы. Код доступен по адресу https://github.com/Guinan-Su/auto-merge-llm.

Есть ли основания для использования токенизаторов, оптимизированных под диалоги, в крупных языковых моделях?
Is There a Case for Conversation Optimized Tokenizers in Large Language Models?

Jun 23, 2025

Raquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego

Вычислительные и энергетические затраты крупных языковых моделей (LLM) растут экспоненциально из-за увеличения размеров моделей и массового внедрения LLM сотнями миллионов пользователей. Единицей затрат для LLM является вычисление токена. Поэтому токенизатор играет важную роль в эффективности модели, и они тщательно оптимизируются для минимизации количества токенов в тексте их обучающего корпуса. Одним из самых популярных применений LLM являются чат-боты, взаимодействующие с пользователями. Ключевое наблюдение заключается в том, что для таких чат-ботов важна производительность токенизатора на текстовых вводах пользователей и ответах чат-бота. Эти тексты, скорее всего, отличаются от текстов в обучающем корпусе. Таким образом, возникает вопрос: есть ли потенциальная польза в оптимизации токенизаторов для чат-ботов? В данной статье эта идея исследуется для различных токенизаторов путем использования публично доступного корпуса диалогов чат-ботов для перепроектирования их словарей и оценки их производительности в этой области. Результаты показывают, что токенизаторы, оптимизированные для диалогов, последовательно сокращают количество токенов в диалогах чат-ботов, что может привести к значительной экономии энергии в диапазоне от 5% до 10%, при этом оказывая минимальное или даже слегка положительное влияние на эффективность токенизации для исходного обучающего корпуса.

ReCode: Обновление знаний об API кода с использованием обучения с подкреплением
ReCode: Updating Code API Knowledge with Reinforcement Learning

Jun 25, 2025

Haoze Wu, Yunzhi Yao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Крупные языковые модели (LLMs) демонстрируют впечатляющие способности в генерации кода, но сталкиваются с трудностями при адаптации к частым обновлениям API внешних библиотек. Это критическое ограничение, вызванное зависимостью от устаревших знаний об API из их обучающих данных, даже при наличии доступа к актуальной документации, препятствует надежной генерации кода в динамичных средах. Для решения этой проблемы мы предлагаем ReCode (rule-based Reinforcement learning for Code Update) — новый фреймворк, имитирующий адаптацию программистов к изменениям API. В частности, мы создаем набор данных из примерно 2000 записей для обучения LLM выполнению миграции версий на основе обновленной информации. Затем мы вводим модифицированную метрику сходства строк для оценки кода в качестве награды для обучения с подкреплением. Наши эксперименты показывают, что ReCode значительно улучшает производительность LLM в сценариях с динамичными API, особенно на задаче CodeUpdateArena, которая не была представлена в обучающих данных. Важно отметить, что по сравнению с тонкой настройкой с учителем, ReCode оказывает меньшее влияние на общие способности LLM к генерации кода. Мы применяем ReCode к различным LLM и алгоритмам обучения с подкреплением (GRPO и DAPO), и все они демонстрируют стабильные улучшения. Примечательно, что после обучения Qwen2.5-Coder-7B превосходит модель с 32 миллиардами параметров, настроенную на генерацию кода, и модель с аналогичной архитектурой, ориентированную на рассуждения. Код доступен по адресу https://github.com/zjunlp/ReCode.

MATE: Мультиагентная среда перевода с поддержкой LLM для приложений доступности
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications

Jun 24, 2025

Aleksandr Algazinov, Matt Laing, Paul Laban

Доступность остается критически важной проблемой в современном обществе, поскольку многие технологии не разрабатываются с учетом полного спектра потребностей пользователей. Существующие мультиагентные системы (MAS) часто не могут обеспечить всестороннюю помощь нуждающимся пользователям из-за отсутствия кастомизации, вызванного закрытыми исходными кодами. В результате люди с ограниченными возможностями часто сталкиваются с серьезными барьерами при попытке взаимодействия с цифровыми средами. Мы представляем MATE, мультимодальную мультиагентную систему для обеспечения доступности, которая выполняет преобразование модальностей в соответствии с потребностями пользователя. Система полезна для помощи людям с ограниченными возможностями, гарантируя, что данные будут преобразованы в понятный формат. Например, если пользователь плохо видит и получает изображение, система преобразует это изображение в его аудиоописание. MATE может быть применена в широком спектре областей, отраслей и сфер, таких как здравоохранение, и стать полезным помощником для различных групп пользователей. Система поддерживает множество типов моделей, начиная от вызовов API LLM и заканчивая использованием пользовательских классификаторов машинного обучения (ML). Эта гибкость обеспечивает адаптацию системы к различным потребностям и совместимость с широким спектром оборудования. Поскольку система предназначена для локального запуска, она гарантирует конфиденциальность и безопасность чувствительной информации. Кроме того, фреймворк может быть эффективно интегрирован с институциональными технологиями (например, цифровыми сервисами здравоохранения) для оказания помощи пользователям в реальном времени. Мы также представляем ModCon-Task-Identifier — модель, способную извлекать точную задачу преобразования модальностей из пользовательского ввода. Многочисленные эксперименты показывают, что ModCon-Task-Identifier стабильно превосходит другие LLM и статистические модели на наших пользовательских данных. Наш код и данные доступны публично по адресу https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.

FilMaster: Соединение кинематографических принципов и генеративного ИИ для автоматизированного создания фильмов
FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation

Jun 23, 2025

Kaiyi Huang, Yukun Huang, Xintao Wang, Zinan Lin, Xuefei Ning, Pengfei Wan, Di Zhang, Yu Wang, Xihui Liu

Создание контента с использованием ИИ продемонстрировало потенциал в кинопроизводстве. Однако существующие системы генерации фильмов испытывают трудности с реализацией кинематографических принципов и, как следствие, не способны создавать профессиональные фильмы, особенно из-за отсутствия разнообразного языка камеры и кинематографического ритма. Это приводит к шаблонной визуализации и неувлекательным сюжетам. Для решения этой проблемы мы представляем FilMaster — сквозную систему ИИ, которая интегрирует реальные кинематографические принципы для генерации профессиональных фильмов, создавая редактируемые результаты, соответствующие отраслевым стандартам. FilMaster основан на двух ключевых принципах: (1) обучение кинематографии на основе обширных данных из реальных фильмов и (2) имитация профессиональных, ориентированных на аудиторию процессов постпродакшна. Вдохновленные этими принципами, мы разработали FilMaster с двумя этапами: этап генерации с использованием референсов, который преобразует пользовательский ввод в видеоклипы, и этап генеративного постпродакшна, который превращает сырые кадры в аудиовизуальные результаты, организуя визуальные и звуковые элементы для достижения кинематографического ритма. На этапе генерации выделяется модуль Multi-shot Synergized RAG Camera Language Design, который направляет ИИ на создание профессионального языка камеры, извлекая референсные клипы из обширного корпуса из 440 000 фильмов. На этапе постпродакшна имитируются профессиональные процессы с помощью модуля Audience-Centric Cinematic Rhythm Control, включающего процессы Rough Cut и Fine Cut, основанные на симулированной обратной связи от аудитории, для эффективной интеграции аудиовизуальных элементов и создания увлекательного контента. Система поддерживается генеративными моделями ИИ, такими как (M)LLM и модели генерации видео. Кроме того, мы представляем FilmEval — комплексный бенчмарк для оценки фильмов, созданных ИИ. Многочисленные эксперименты демонстрируют превосходство FilMaster в проектировании языка камеры и управлении кинематографическим ритмом, продвигая генеративный ИИ в профессиональном кинопроизводстве.

Biomed-Enriched: Биомедицинский набор данных, обогащенный с помощью языковых моделей для предварительного обучения и извлечения редкой и скрытой информации
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content

Jun 25, 2025

Rian Touchent, Nathan Godey, Eric de la Clergerie

Мы представляем Biomed-Enriched, биомедицинский текстовый набор данных, созданный из PubMed с помощью двухэтапного процесса аннотации. На первом этапе крупная языковая модель аннотирует 400 тысяч абзацев из научных статей PubMed, присваивая им оценки по типу (обзор, исследование, клинический случай, другое), области (клиническая, биомедицинская, другая) и образовательному качеству. Оценка образовательного качества (от 1 до 5) определяет, насколько полезен абзац для обучения на уровне колледжа. Эти аннотации затем используются для тонкой настройки небольшой языковой модели, которая распространяет метки на весь корпус PMC-OA. Полученные метаданные позволяют извлекать уточнённые подмножества, включая 2 миллиона абзацев клинических случаев, из которых более 450 тысяч высококачественных взяты из статей с лицензиями на коммерческое использование, а также создавать несколько вариантов с помощью фильтрации по качеству и увеличения выборки по доменам. Клинические тексты обычно труднодоступны из-за ограничений конфиденциальности, так как больничные записи не могут быть публично доступны. Таким образом, наш набор данных предоставляет альтернативную крупномасштабную, открыто доступную коллекцию клинических случаев из PubMed, что делает его ценным ресурсом для биомедицинской и клинической обработки естественного языка. Предварительные эксперименты с непрерывным предобучением на модели OLMo2 показывают, что эти тщательно отобранные подмножества позволяют достичь целевых улучшений: увеличение выборки клинических данных повышает производительность на ~5% на тесте MMLU ProfMed, а фильтрация по образовательному качеству улучшает результаты на MedQA и MedMCQA на ~1%. Комбинации этих методов приводят к более быстрой сходимости, достигая той же производительности при использовании трети тренировочных токенов, что указывает на потенциал для более эффективных и результативных стратегий биомедицинского предобучения.

Индекс ухудшения отладки: переосмысление стратегий отладки для языковых моделей программирования
The Debugging Decay Index: Rethinking Debugging Strategies for Code LLMs

Jun 23, 2025

Muntasir Adnan, Carlos C. N. Kuhn

Эффективность отладки ИИ следует предсказуемой модели экспоненциального затухания: большинство моделей теряют 60-80% своей способности к отладке уже через 2-3 попытки, несмотря на то, что итеративная отладка является критически важной функцией для практических систем генерации кода. Мы представляем Индекс Затухания Отладки (Debugging Decay Index, DDI) — математическую модель, которая количественно определяет момент, когда отладка становится неэффективной, и прогнозирует точки вмешательства. Наш стратегический подход "свежего старта" переключается с эксплуатации на исследование в ключевые моменты процесса отладки, демонстрируя, что своевременные вмешательства могут восстановить эффективность отладки. DDI выявляет фундаментальное ограничение в текущих подходах к отладке ИИ и предоставляет первую количественную модель для оптимизации итеративных стратегий генерации кода.

Ежедневные статьи

ShareGPT-4o-Image: Согласование мультимодальных моделей с генерацией изображений уровня GPT-4o
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

Предварительное обучение с защитой от выбросов для устойчивого 4-битного квантования крупных языковых моделей
Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

OctoThinker: Стимуляция в процессе обучения способствует масштабированию обучения с подкреплением
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Используйте тестирование на основе свойств для объединения генерации и проверки кода с помощью языковых моделей.
Use Property-Based Testing to Bridge LLM Code Generation and Validation

Мыслительные якоря: Какие шаги рассуждений в больших языковых моделях имеют значение?
Thought Anchors: Which LLM Reasoning Steps Matter?

GPTailor: Обрезка крупных языковых моделей посредством удаления и сшивания слоёв
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

Есть ли основания для использования токенизаторов, оптимизированных под диалоги, в крупных языковых моделях?
Is There a Case for Conversation Optimized Tokenizers in Large Language Models?

ReCode: Обновление знаний об API кода с использованием обучения с подкреплением
ReCode: Updating Code API Knowledge with Reinforcement Learning

MATE: Мультиагентная среда перевода с поддержкой LLM для приложений доступности
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications

FilMaster: Соединение кинематографических принципов и генеративного ИИ для автоматизированного создания фильмов
FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation

Индекс ухудшения отладки: переосмысление стратегий отладки для языковых моделей программирования
The Debugging Decay Index: Rethinking Debugging Strategies for Code LLMs

Support

Support

Ежедневные статьи

ShareGPT-4o-Image: Согласование мультимодальных моделей с генерацией изображений уровня GPT-4o
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

Предварительное обучение с защитой от выбросов для устойчивого 4-битного квантования крупных языковых моделей
Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

OctoThinker: Стимуляция в процессе обучения способствует масштабированию обучения с подкреплением
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Используйте тестирование на основе свойств для объединения генерации и проверки кода с помощью языковых моделей.
Use Property-Based Testing to Bridge LLM Code Generation and Validation

Мыслительные якоря: Какие шаги рассуждений в больших языковых моделях имеют значение?
Thought Anchors: Which LLM Reasoning Steps Matter?

GPTailor: Обрезка крупных языковых моделей посредством удаления и сшивания слоёв
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

Есть ли основания для использования токенизаторов, оптимизированных под диалоги, в крупных языковых моделях?
Is There a Case for Conversation Optimized Tokenizers in Large Language Models?

ReCode: Обновление знаний об API кода с использованием обучения с подкреплением
ReCode: Updating Code API Knowledge with Reinforcement Learning

MATE: Мультиагентная среда перевода с поддержкой LLM для приложений доступности
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications

FilMaster: Соединение кинематографических принципов и генеративного ИИ для автоматизированного создания фильмов
FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation

Индекс ухудшения отладки: переосмысление стратегий отладки для языковых моделей программирования
The Debugging Decay Index: Rethinking Debugging Strategies for Code LLMs