Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos nuestros modelos de razonamiento de primera generación, DeepSeek-R1-Zero y DeepSeek-R1. DeepSeek-R1-Zero, un modelo entrenado a través de aprendizaje por refuerzo a gran escala (RL) sin ajuste supervisado fino (SFT) como paso preliminar, demuestra notables capacidades de razonamiento. Mediante RL, DeepSeek-R1-Zero emerge naturalmente con numerosos comportamientos de razonamiento poderosos e intrigantes. Sin embargo, se enfrenta a desafíos como baja legibilidad y mezcla de lenguajes. Para abordar estos problemas y mejorar aún más el rendimiento de razonamiento, presentamos DeepSeek-R1, que incorpora entrenamiento en múltiples etapas y datos de inicio en frío antes de RL. DeepSeek-R1 logra un rendimiento comparable al de OpenAI-o1-1217 en tareas de razonamiento. Para apoyar a la comunidad investigadora, hacemos de código abierto DeepSeek-R1-Zero, DeepSeek-R1 y seis modelos densos (1.5B, 7B, 8B, 14B, 32B, 70B) destilados de DeepSeek-R1 basados en Qwen y Llama.
El preentrenamiento del modelo de lenguaje con predicción del siguiente token ha demostrado ser efectivo para escalar el cálculo, pero está limitado por la cantidad de datos de entrenamiento disponibles. La escalabilidad del aprendizaje por refuerzo (RL) desbloquea un nuevo eje para la mejora continua de la inteligencia artificial, con la promesa de que los grandes modelos de lenguaje (LLMs) pueden ampliar sus datos de entrenamiento aprendiendo a explorar con recompensas. Sin embargo, trabajos previamente publicados no han producido resultados competitivos. En vista de esto, informamos sobre la práctica de entrenamiento de Kimi k1.5, nuestro último LLM multimodal entrenado con RL, incluyendo sus técnicas de entrenamiento de RL, recetas de datos multimodales y optimización de infraestructura. La ampliación del contexto largo y los métodos mejorados de optimización de políticas son ingredientes clave de nuestro enfoque, que establece un marco de RL simplista y efectivo sin depender de técnicas más complejas como la búsqueda de árboles de Monte Carlo, funciones de valor y modelos de recompensa de proceso. Notablemente, nuestro sistema logra un rendimiento de razonamiento de vanguardia en múltiples benchmarks y modalidades, por ejemplo, 77.5 en AIME, 96.2 en MATH 500, percentil 94 en Codeforces, 74.9 en MathVista, igualando al o1 de OpenAI. Además, presentamos métodos efectivos de largo a corto que utilizan técnicas de largo-CoT para mejorar modelos de corto-CoT, produciendo resultados de razonamiento de corto-CoT de vanguardia, por ejemplo, 60.8 en AIME, 94.6 en MATH500, 47.3 en LiveCodeBench, superando a modelos de corto-CoT existentes como GPT-4o y Claude Sonnet 3.5 por un amplio margen (hasta +550%).
En este documento, proponemos VideoLLaMA3, un modelo de base multimodal más avanzado para la comprensión de imágenes y videos. La filosofía de diseño central de VideoLLaMA3 es centrada en la visión. El significado de "centrado en la visión" es doble: el paradigma de entrenamiento centrado en la visión y el diseño del marco centrado en la visión. La idea clave de nuestro paradigma de entrenamiento centrado en la visión es que los datos de alta calidad imagen-texto son cruciales tanto para la comprensión de imágenes como de videos. En lugar de preparar conjuntos de datos masivos de video-texto, nos enfocamos en la construcción de conjuntos de datos imagen-texto a gran escala y de alta calidad. VideoLLaMA3 consta de cuatro etapas de entrenamiento: 1) etapa de alineación centrada en la visión, que prepara el codificador y proyector de visión; 2) etapa de preentrenamiento visión-lenguaje, que ajusta conjuntamente el codificador de visión, proyector y LLM con datos imagen-texto a gran escala que cubren varios tipos (incluyendo imágenes de escenas, documentos, gráficos) así como datos solo de texto; 3) etapa de ajuste fino multi-tarea, que incorpora datos SFT imagen-texto para tareas posteriores y datos video-texto para establecer una base para la comprensión de videos; 4) ajuste fino centrado en video, que mejora aún más la capacidad del modelo en la comprensión de videos. En cuanto al diseño del marco, para capturar mejor detalles detallados en las imágenes, el codificador de visión preentrenado se adapta para codificar imágenes de tamaños variables en tokens de visión con números correspondientes, en lugar de un número fijo de tokens. Para las entradas de video, reducimos el número de tokens de visión según su similitud para que la representación de los videos sea más precisa y compacta. Gracias a los diseños centrados en la visión, VideoLLaMA3 logra un rendimiento convincente en los puntos de referencia de comprensión de imágenes y videos.
La producción de cine virtual requiere procesos de toma de decisiones intrincados, que incluyen la escritura de guiones, la cinematografía virtual y la precisa posición y acciones de los actores. Motivado por los avances recientes en la toma automatizada de decisiones con sociedades basadas en agentes de lenguaje, este documento presenta FilmAgent, un novedoso marco colaborativo multiagente basado en LLM para la automatización de películas de principio a fin en nuestros espacios virtuales 3D construidos. FilmAgent simula varios roles de equipo, incluidos directores, guionistas, actores y directores de fotografía, y abarca etapas clave de un flujo de trabajo de producción de películas: (1) el desarrollo de ideas transforma ideas generadas en tormenta en esquemas de historias estructuradas; (2) la escritura de guiones elabora diálogos y acciones de personajes para cada escena; (3) la cinematografía determina las configuraciones de cámara para cada toma. Un equipo de agentes colabora a través de retroalimentación iterativa y revisiones, verificando así guiones intermedios y reduciendo alucinaciones. Evaluamos los videos generados en 15 ideas y 4 aspectos clave. La evaluación humana muestra que FilmAgent supera a todos los baselines en todos los aspectos y obtiene un promedio de 3.98 sobre 5, demostrando la viabilidad de la colaboración multiagente en la realización de películas. Un análisis adicional revela que FilmAgent, a pesar de utilizar el modelo GPT-4o menos avanzado, supera al agente único o1, mostrando la ventaja de un sistema multiagente bien coordinado. Por último, discutimos las fortalezas y debilidades complementarias del modelo de texto a video de OpenAI, Sora, y nuestro FilmAgent en la realización de películas.
Los modelos de lenguaje grandes (LLMs) demuestran un rendimiento impresionante pero carecen de la flexibilidad para adaptarse rápidamente a las preferencias humanas sin necesidad de volver a entrenar. En este trabajo, presentamos la Optimización de Preferencias en Tiempo de Prueba (TPO), un marco que alinea las salidas de LLM con las preferencias humanas durante la inferencia, eliminando la necesidad de actualizar los parámetros del modelo. En lugar de depender únicamente de recompensas numéricas, TPO traduce las señales de recompensa en críticas textuales y las utiliza como recompensas textuales para refinar iterativamente su respuesta. Las evaluaciones en bancos de pruebas que abarcan el seguimiento de instrucciones, la alineación de preferencias, la seguridad y las matemáticas revelan que TPO mejora progresivamente la alineación con las preferencias humanas. Es notable que, después de solo unos pocos pasos de TPO, el modelo inicialmente desalineado Llama-3.1-70B-SFT puede superar al contraparte alineado, Llama-3.1-70B-Instruct. Además, TPO escala eficientemente tanto con el ancho como con la profundidad de la búsqueda durante la inferencia. A través de estudios de caso, ilustramos cómo TPO explota la capacidad innata de los LLM para interpretar y actuar sobre las señales de recompensa. Nuestros hallazgos establecen a TPO como una alternativa práctica y liviana para la optimización de preferencias en tiempo de prueba, logrando la alineación sobre la marcha. Nuestro código está disponible públicamente en https://github.com/yafuly/TPO.
Los modelos de Mezcla de Expertos (MoE) generalmente utilizan un enrutador para asignar tokens a módulos expertos específicos, activando solo parámetros parciales y superando a menudo a los modelos densos. Sostenemos que la separación entre la toma de decisiones del enrutador y la ejecución de los expertos es un problema crítico pero pasado por alto, lo que conduce a una selección subóptima de expertos y un aprendizaje ineficaz. Para abordar esto, proponemos Autonomía de Expertos (AoE), un nuevo paradigma de MoE en el que los expertos se seleccionan autónomamente para procesar entradas. AoE se basa en la idea de que un experto es consciente de su capacidad para procesar efectivamente un token, una conciencia reflejada en la escala de sus activaciones internas. En AoE, se eliminan los enrutadores; en su lugar, los expertos precalculan activaciones internas para las entradas y se clasifican según sus normas de activación. Solo los expertos mejor clasificados continúan con el pase hacia adelante, mientras que los demás se detienen. El costo de precalcular activaciones se reduce mediante una factorización de pesos de rango bajo. Este enfoque de autoevaluación y comparación con socios garantiza una mejor selección de expertos y un aprendizaje efectivo. Pre-entrenamos modelos de lenguaje con 700M hasta 4B parámetros, demostrando que AoE supera a los modelos MoE tradicionales con eficiencia comparable.
Recientemente, los LLMs de razonamiento prolongado, como el O1 de OpenAI, adoptan procesos de razonamiento extendidos similares a cómo los humanos reflexionan sobre problemas complejos. Este paradigma de razonamiento mejora significativamente las habilidades del modelo para resolver problemas y ha logrado resultados prometedores. Sin embargo, el proceso de razonamiento prolongado conlleva un aumento sustancial en el tiempo de inferencia. Un desafío apremiante es reducir la sobrecarga de inferencia de los LLMs de razonamiento prolongado mientras se garantiza la precisión. En este documento, demostramos experimentalmente que los modelos de razonamiento prolongado tienen dificultades para asignar eficazmente presupuestos de tokens basados en la dificultad del problema y las redundancias de razonamiento. Para abordar esto, proponemos el Ajuste Fino de Armonización de Longitud (O1-Pruner), con el objetivo de minimizar la sobrecarga de razonamiento manteniendo la precisión. Este método efectivo de ajuste fino primero estima el rendimiento base del LLM mediante pre-muestreo y luego utiliza un ajuste fino de estilo RL para alentar al modelo a generar procesos de razonamiento más cortos bajo restricciones de precisión. Esto permite que el modelo logre un razonamiento eficiente con una menor redundancia manteniendo la precisión. Experimentos en varios bancos de pruebas de razonamiento matemático muestran que O1-Pruner no solo reduce significativamente la sobrecarga de inferencia, sino que también logra una mayor precisión, ofreciendo una solución novedosa y prometedora a este desafío. Nuestro código estará disponible próximamente en https://github.com/StarDewXXX/O1-Pruner
El muestreo de Mejor-de-N (BoN), una estrategia común para la escalabilidad en tiempo de prueba de Modelos de Lenguaje Grandes (LLMs), se basa en modelos de recompensa para seleccionar la mejor solución candidata de múltiples generaciones. Sin embargo, los modelos de recompensa tradicionales a menudo asignan puntuaciones arbitrarias e inconsistentes, limitando su efectividad. Para abordar esto, proponemos un Modelo de Recompensa por Pares (Pairwise RM) combinado con un torneo de eliminación para el muestreo BoN. En lugar de asignar puntuaciones absolutas, dado un problema matemático, Pairwise RM evalúa simultáneamente la corrección de dos soluciones candidatas. Este enfoque elimina la necesidad de puntuaciones arbitrarias y permite la validación cruzada de soluciones a través de comparaciones paralelas. En el torneo de eliminación, Pairwise RM realiza comparaciones por pares entre soluciones candidatas y elimina las incorrectas de forma iterativa. Construimos nuestro conjunto de datos, un conjunto de datos a gran escala de 443K comparaciones por pares derivadas de NumiaMath y anotadas utilizando gemini-1.5-flash, y entrenamos el Modelo de Recompensa por Pares mediante un ajuste fino supervisado. Los experimentos en MATH-500 y el Banco de Pruebas de la Olimpiada demuestran mejoras significativas sobre los modelos de recompensa discriminativos tradicionales. Se logra una mejora relativa del 40\% al 60\% en los problemas desafiantes del 50\% superior.
La reconstrucción 3D multi-vista sigue siendo un desafío fundamental en visión por computadora, especialmente en aplicaciones que requieren representaciones precisas y escalables a través de perspectivas diversas. Los métodos líderes actuales como DUSt3R emplean un enfoque fundamentalmente por pares, procesando imágenes de a dos y requiriendo costosos procedimientos de alineación global para reconstruir desde múltiples vistas. En este trabajo, proponemos Reconstrucción 3D Rápida (Fast3R), una generalización multi-vista novedosa de DUSt3R que logra una reconstrucción 3D eficiente y escalable al procesar muchas vistas en paralelo. La arquitectura basada en Transformadores de Fast3R avanza N imágenes en un solo pase hacia adelante, evitando la necesidad de alineación iterativa. A través de experimentos extensos en estimación de posición de cámara y reconstrucción 3D, Fast3R demuestra un rendimiento de vanguardia, con mejoras significativas en velocidad de inferencia y reducción de acumulación de errores. Estos resultados establecen a Fast3R como una alternativa robusta para aplicaciones multi-vista, ofreciendo una escalabilidad mejorada sin comprometer la precisión de la reconstrucción.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) están transformando la inteligencia artificial, evolucionando hacia sistemas orientados a tareas capaces de planificación y ejecución autónomas. Una de las aplicaciones principales de los LLMs es en sistemas de inteligencia artificial conversacional, los cuales deben navegar diálogos de múltiples turnos, integrar APIs específicas de dominio y cumplir con estrictas restricciones de políticas. Sin embargo, evaluar estos agentes sigue siendo un desafío significativo, ya que los métodos tradicionales no logran capturar la complejidad y variabilidad de las interacciones del mundo real. Presentamos IntellAgent, un marco de trabajo multiagente escalable y de código abierto diseñado para evaluar de manera integral los sistemas de inteligencia artificial conversacional. IntellAgent automatiza la creación de diversos bancos de pruebas sintéticos combinando modelado de gráficos basado en políticas, generación realista de eventos y simulaciones interactivas de agentes de usuario. Este enfoque innovador proporciona diagnósticos detallados, abordando las limitaciones de los bancos de pruebas estáticos y curados manualmente con métricas de grano grueso. IntellAgent representa un cambio de paradigma en la evaluación de la inteligencia artificial conversacional. Al simular escenarios realistas con múltiples políticas a través de diferentes niveles de complejidad, IntellAgent captura la interacción matizada de las capacidades de los agentes y las restricciones de las políticas. A diferencia de los métodos tradicionales, emplea un modelo de políticas basado en gráficos para representar relaciones, probabilidades y complejidades de las interacciones de políticas, permitiendo diagnósticos altamente detallados. IntellAgent también identifica brechas críticas de rendimiento, ofreciendo ideas accionables para optimización específica. Su diseño modular y de código abierto respalda la integración fluida de nuevos dominios, políticas y APIs, fomentando la reproducibilidad y la colaboración comunitaria. Nuestros hallazgos demuestran que IntellAgent sirve como un marco efectivo para avanzar en la inteligencia artificial conversacional al abordar los desafíos en la conexión entre la investigación y la implementación. El marco está disponible en https://github.com/plurai-ai/intellagent