Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие модели рассуждений (LRM), такие как OpenAI-o1, продемонстрировали впечатляющие возможности долгосрочного логического рассуждения с помощью обучения с подкреплением на большом масштабе. Однако их продолжительные процессы рассуждений часто страдают от недостаточности знаний, что приводит к частым неопределенностям и потенциальным ошибкам. Для преодоления этого ограничения мы представляем Search-o1, фреймворк, который улучшает LRM с механизмом агентного поиска с увеличением генерации (RAG) и модулем Причина-в-Документах для уточнения извлеченных документов. Search-o1 интегрирует агентный поисковый рабочий процесс в процесс рассуждения, обеспечивая динамическое извлечение внешних знаний, когда LRM сталкивается с неопределенными точками знаний. Кроме того, из-за многословной природы извлеченных документов мы разрабатываем отдельный модуль Причина-в-Документах для глубокого анализа извлеченной информации перед ее внедрением в цепочку рассуждений, минимизируя шум и сохраняя последовательность логического рассуждения. Обширные эксперименты на сложных задачах рассуждения в области науки, математики и программирования, а также на шести бенчмарках открытых вопросов и ответов, демонстрируют высокую производительность Search-o1. Этот подход улучшает надежность и применимость LRM в сложных задачах рассуждения, открывая путь к более надежным и универсальным интеллектуальным системам. Код доступен по адресу https://github.com/sunnynexus/Search-o1.
Существует широко распространенное утверждение о том, что обучение генеративно-состязательных сетей (GAN) является сложным, и архитектуры GAN, представленные в литературе, полны эмпирических трюков. Мы предоставляем доказательства против этого утверждения и строим современную базовую модель GAN более принципиальным образом. Во-первых, мы вывели хорошо себя ведущую регуляризованную потерю релятивистского GAN, которая решает проблемы потери режимов и неконвергенции, которые ранее решались с помощью мешка ад-хок трюков. Мы математически проанализировали нашу потерю и доказали, что она обладает гарантиями локальной сходимости, в отличие от большинства существующих релятивистских потерь. Во-вторых, наша новая потеря позволяет нам отказаться от всех ад-хок трюков и заменить устаревшие основы, используемые в обычных GAN, современными архитектурами. Используя StyleGAN2 в качестве примера, мы представляем план упрощения и модернизации, который приводит к новой минималистической базовой модели - R3GAN. Несмотря на свою простоту, наш подход превосходит StyleGAN2 на наборах данных FFHQ, ImageNet, CIFAR и Stacked MNIST, и сравнительно успешен по сравнению с передовыми GAN и моделями диффузии.
Данный доклад исследует прогресс в создании больших языковых моделей (БЯМ), более приближенных к человеческому образу. Мы сосредотачиваемся на методах, улучшающих понимание естественного языка, согласованность беседы и эмоциональный интеллект в системах искусственного интеллекта. В рамках исследования оцениваются различные подходы, включая донастройку с использованием разнообразных наборов данных, внедрение психологических принципов и разработку моделей, которые лучше имитируют образцы человеческого мышления. Наши результаты показывают, что эти улучшения не только повышают взаимодействие с пользователем, но и открывают новые возможности для применения искусственного интеллекта в различных областях. В дальнейшей работе будут рассмотрены этические аспекты и потенциальные предвзятости, внесенные этими человекоподобными характеристиками.
Мы проводим эмпирическое исследование авторегрессионного предварительного обучения на видео. Для выполнения нашего исследования мы создаем серию авторегрессионных видеомоделей, названных Toto. Мы рассматриваем видео как последовательности визуальных токенов и обучаем модели трансформера для авторегрессивного предсказания будущих токенов. Наши модели предварительно обучаются на разнообразном наборе данных видео и изображений, включающем более 1 триллиона визуальных токенов. Мы исследуем различные архитектурные, обучающие и дизайнерские выборы. Мы оцениваем изученные визуальные представления на ряде задач в дальнейшем, включая распознавание изображений, классификацию видео, отслеживание объектов и робототехнику. Наши результаты показывают, что, несмотря на минимальные индуктивные предпочтения, авторегрессионное предварительное обучение приводит к конкурентоспособной производительности на всех бенчмарках. Наконец, мы обнаруживаем, что масштабирование наших видеомоделей приводит к аналогичным кривым масштабирования, как и в моделях языка, хотя и с другой скоростью. Более подробная информация доступна по ссылке https://brjathu.github.io/toto/
Недавние достижения в моделях видео-языка (VLM) вызвали интерес к их использованию для автономного вождения, особенно в создании интерпретируемых решений вождения на естественном языке. Однако предположение, что VLM по своей природе обеспечивают визуально обоснованные, надежные и интерпретируемые объяснения для вождения, остается в значительной степени неизученным. Для решения этого пробела мы представляем DriveBench, набор данных для оценки надежности VLM в 17 сценариях (чистые, поврежденные и только текстовые входы), охватывающий 19 200 кадров, 20 498 пар вопрос-ответ, три типа вопросов, четыре основных задачи вождения и в общей сложности 12 популярных VLM. Наши результаты показывают, что VLM часто генерируют правдоподобные ответы, основанные на общих знаниях или текстовых подсказках, а не на истинном визуальном обосновании, особенно при деградированных или отсутствующих визуальных входах. Это поведение, скрытое дисбалансами в наборе данных и недостаточными метриками оценки, представляет существенные риски в сценариях, связанных с безопасностью, таких как автономное вождение. Мы также наблюдаем, что VLM испытывают трудности с мультимодальным рассуждением и проявляют повышенную чувствительность к повреждениям входных данных, что приводит к несоответствиям в производительности. Для решения этих проблем мы предлагаем усовершенствованные метрики оценки, которые придают приоритет надежному визуальному обоснованию и мультимодальному пониманию. Кроме того, мы выделяем потенциал использования осведомленности VLM о повреждениях для улучшения их надежности, предлагая план развития более надежных и интерпретируемых систем принятия решений в реальных сценариях автономного вождения. Набор инструментов для оценки доступен публично.
Большинство крупных моделей видео-языка (LVLM) на сегодняшний день обучаются в основном на английских данных, что затрудняет понимание ими неанглоязычных входных данных и приводит к невозможности генерации вывода на желаемом целевом языке. Существующие усилия по решению этих проблем включают добавление мультиязычных обучающих данных, однако это происходит в значительной степени спонтанно, лишенное понимания того, как различные комбинации обучающих данных влияют на разные группы языков. В данной работе мы представляем всестороннее исследование стратегий обучения для массово мультиязычных моделей видео-языка. Во-первых, мы проводим серию многоэтапных экспериментов, охватывающих 13 последующих задач видео-языка и 43 языка, систематически исследуя: (1) количество обучающих языков, которые можно включить без ухудшения производительности на английском языке, и (2) оптимальные языковые распределения для предварительного обучения, а также (3) данных настройки инструкций. Кроме того, мы (4) исследуем способы улучшения мультиязычного понимания текста в изображении и представляем новый показатель для этой задачи. Удивительно, наш анализ показывает, что можно (i) включить одновременно до 100 обучающих языков (ii) с использованием всего 25-50\% неанглоязычных данных, чтобы значительно улучшить мультиязычную производительность, сохраняя при этом сильную производительность на английском языке. Мы также обнаружили, что (iii) включение неанглоязычных данных OCR в предварительное обучение и настройку инструкций является ключевым для улучшения мультиязычного понимания текста в изображении. Наконец, мы объединяем все наши результаты и обучаем Centurio, многопредметную модель видео-языка на 100 языках, предлагая передовую производительность в оценке, охватывающей 14 задач и 56 языков.
Большие языковые модели (LLM) продемонстрировали выдающуюся компетентность в решении разнообразных сложных задач. Одним из значительных применений LLM является решение задач программной инженерии, особенно в разрешении реальных задач на GitHub путем исправления кода на основе проблем, сообщенных пользователями. Однако многие существующие подходы полагаются на собственные LLM, что ограничивает воспроизводимость, доступность и прозрачность. Критические компоненты LLM для решения проблем программной инженерии и способы эффективного улучшения их возможностей остаются неясными. Для решения этих проблем мы представляем SWE-Fixer, новую открытую LLM, разработанную для эффективного и эффективного решения проблем на GitHub. SWE-Fixer состоит из двух основных модулей: модуля извлечения файлов с кодом и модуля редактирования кода. Модуль извлечения использует BM25 вместе с легковесной моделью LLM для достижения грубого и точного извлечения файлов. Затем модуль редактирования кода использует другую модель LLM для генерации патчей для выявленных файлов. Затем, чтобы компенсировать отсутствие общедоступных наборов данных, мы составляем обширный набор данных, включающий 110 тыс. проблем на GitHub вместе с соответствующими патчами, и обучаем два модуля SWE-Fixer отдельно. Мы оцениваем наш подход на бенчмарках SWE-Bench Lite и Verified, достигая передового качества с оценками соответственно 23,3% и 30,2% среди моделей с открытым исходным кодом. Эти результаты подчеркивают эффективность нашего подхода. Мы собираемся сделать нашу модель, набор данных и код общедоступными на https://github.com/InternLM/SWE-Fixer.
Недавно модели визуальной авторегрессии (VAR) представили прорывное достижение в области генерации изображений, предлагая масштабируемый подход через грубо-детальную парадигму "предсказание следующего масштаба". Однако современный алгоритм моделей VAR в [Tian, Jiang, Yuan, Peng и Wang, NeurIPS 2024] требует времени O(n^4), что является вычислительно неэффективным. В данной работе мы анализируем вычислительные ограничения и критерии эффективности моделей VAR через призму детальной сложности. Нашим ключевым вкладом является выявление условий, при которых вычисления VAR могут достигать субквадратичной сложности по времени. Конкретно, мы устанавливаем критический порог для нормы входных матриц, используемых в механизмах внимания VAR. Выше этого порога, предполагая Гипотезу о сильном экспоненциальном времени (SETH) из теории детальной сложности, субквадратичный алгоритм времени для моделей VAR невозможен. Для подтверждения наших теоретических выводов мы представляем эффективные конструкции, использующие низкоранговые аппроксимации, соответствующие полученным критериям. Эта работа инициирует изучение вычислительной эффективности модели VAR с теоретической точки зрения. Наш метод прольет свет на продвижение масштабируемой и эффективной генерации изображений в рамках VAR.
Всеобщее распространение собственных языковых моделей вызвало серьезные проблемы конфиденциальности, требующие развития в области частного вывода (PI), где вычисления выполняются непосредственно над зашифрованными данными без раскрытия чувствительной информации пользователей. Хотя PI предлагает многообещающее решение, его практическое внедрение затруднено значительными накладными расходами на связь и задержками, в основном вызванными нелинейными операциями. Для решения этой проблемы мы представляем информационно-теоретическую основу для характеристики роли нелинейностей в моделях языка только декодера, заложив принципиальное основание для оптимизации архитектур трансформеров, адаптированных к требованиям PI. Путем использования энтропии Шеннона в качестве количественной меры мы раскрываем ранее не исследованный двойной смысл нелинейностей: помимо обеспечения стабильности обучения, они критически важны для поддержания разнообразия внимательных голов. В частности, мы обнаружили, что их удаление вызывает два критических режима сбоя: {\em коллапс энтропии} в более глубоких слоях, что нарушает стабильность обучения, и {\em энтропийное перегрузка} в более ранних слоях, что приводит к недоиспользованию представительной способности многоголового внимания (MHA). Мы предлагаем механизм внимания, направленный на энтропию, совместно с новой техникой регуляризации энтропии для смягчения энтропийной перегрузки. Кроме того, мы исследуем PI-дружественные альтернативы нормализации слоя для предотвращения коллапса энтропии и стабилизации обучения LLM с уменьшенными нелинейностями. Наше исследование сокращает разрыв между теорией информации и архитектурным дизайном, устанавливая динамику энтропии как принципиальное руководство для разработки эффективных архитектур PI. Код и реализация доступны по ссылке https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.
Эта статья представляет основные ресурсы и модели для обработки естественного языка (NLP) исторического турецкого языка, области, которая осталась мало исследованной в вычислительной лингвистике. Мы представляем первый набор данных для распознавания именованных сущностей (NER) - HisTR и первый деревянный банк данных Universal Dependencies, OTA-BOUN для исторической формы турецкого языка, а также модели на основе трансформера, обученные с использованием этих наборов данных для задач распознавания именованных сущностей, синтаксического анализа зависимостей и разметки частей речи. Кроме того, мы представляем Османский текстовый корпус (OTC), чистый корпус транслитерированных исторических турецких текстов, охватывающий широкий диапазон исторических периодов. Наши экспериментальные результаты показывают значительное улучшение вычислительного анализа исторического турецкого языка, достигая многообещающих результатов в задачах, требующих понимания исторических языковых структур. Они также выделяют существующие проблемы, такие как адаптация к области и вариации языка в течение разных исторических периодов. Все представленные ресурсы и модели доступны по адресу https://huggingface.co/bucolin для использования в качестве эталона для будущего прогресса в области NLP исторического турецкого языка.