Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos InternVL3, un avance significativo en la serie InternVL que incorpora un paradigma nativo de preentrenamiento multimodal. En lugar de adaptar un modelo de lenguaje grande (LLM) exclusivo de texto a un modelo de lenguaje grande multimodal (MLLM) que admita entradas visuales, InternVL3 adquiere conjuntamente capacidades multimodales y lingüísticas a partir de datos multimodales diversos y corpus de texto puro durante una única etapa de preentrenamiento. Este paradigma unificado de entrenamiento aborda eficazmente las complejidades y los desafíos de alineación comúnmente encontrados en los enfoques convencionales de entrenamiento post-hoc para MLLMs. Para mejorar aún más el rendimiento y la escalabilidad, InternVL3 incorpora codificación de posición visual variable (V2PE) para soportar contextos multimodales extendidos, emplea técnicas avanzadas de post-entrenamiento como ajuste fino supervisado (SFT) y optimización de preferencias mixtas (MPO), y adopta estrategias de escalado en tiempo de prueba junto con una infraestructura de entrenamiento optimizada. Evaluaciones empíricas exhaustivas demuestran que InternVL3 ofrece un rendimiento superior en una amplia gama de tareas multimodales. En particular, InternVL3-78B alcanza una puntuación de 72.2 en el benchmark MMMU, estableciendo un nuevo estado del arte entre los MLLMs de código abierto. Sus capacidades se mantienen altamente competitivas con los principales modelos propietarios, incluyendo ChatGPT-4o, Claude 3.5 Sonnet y Gemini 2.5 Pro, al mismo tiempo que conserva una fuerte competencia en tareas de lenguaje puro. En línea con los principios de ciencia abierta, publicaremos tanto los datos de entrenamiento como los pesos del modelo para fomentar la investigación y el desarrollo en la próxima generación de MLLMs.
La emergencia de DeepSeek R1 y QwQ 32B ha superado las barreras de rendimiento para ejecutar modelos de lenguaje grandes (LLMs) de vanguardia en dispositivos domésticos. Aunque el hardware de consumo se está volviendo más potente y la cuantización de modelos está mejorando, las soluciones existentes para dispositivos finales aún requieren clústeres de GPU, grandes cantidades de RAM/VRAM y un ancho de banda elevado, muy por encima de lo que un clúster doméstico común puede manejar. Este artículo presenta prima.cpp, un sistema de inferencia distribuida que ejecuta modelos de escala 70B en dispositivos domésticos cotidianos utilizando una combinación de CPU/GPU, baja RAM/VRAM, Wi-Fi y soporte multiplataforma. Utiliza mmap para gestionar los pesos del modelo e introduce un paralelismo en anillo con prefetching para ocultar la carga desde el disco. Al modelar la heterogeneidad en computación, comunicación, disco, memoria (y su comportamiento de gestión) y el sistema operativo, asigna óptimamente las capas del modelo a la CPU y GPU de cada dispositivo, reduciendo aún más la latencia por token. Se propone un algoritmo elegante llamado Halda para resolver este problema de asignación NP-hard. Evaluamos prima.cpp en un clúster doméstico común de cuatro nodos. Supera a llama.cpp, exo y dllama en modelos de 30B+ mientras mantiene la presión de memoria por debajo del 6%. Esto lleva modelos de vanguardia de 30B-70B, como Llama 3, DeepSeek R1, Qwen 2.5 y QwQ, a asistentes domésticos, haciendo que la IA avanzada sea verdaderamente accesible para individuos. El código es de código abierto y está disponible en https://github.com/Lizonghang/prima.cpp.
El modelo multimodal GPT-4o de OpenAI ha demostrado capacidades notables en la generación y edición de imágenes, pero su habilidad para lograr una síntesis semántica informada por el conocimiento del mundo—integrando de manera fluida el conocimiento del dominio, el razonamiento contextual y la adherencia a instrucciones—aún no ha sido probada. En este estudio, evaluamos sistemáticamente estas capacidades en tres dimensiones críticas: (1) Adherencia Global a Instrucciones, (2) Precisión en Ediciones de Detalle, y (3) Razonamiento Post-Generación. Aunque los benchmarks existentes destacan las sólidas capacidades de GPT-4o en la generación y edición de imágenes, nuestra evaluación revela limitaciones persistentes del modelo: con frecuencia recurre a interpretaciones literales de las instrucciones, aplica de manera inconsistente las restricciones de conocimiento y tiene dificultades con tareas de razonamiento condicional. Estos hallazgos cuestionan las suposiciones predominantes sobre las capacidades unificadas de comprensión y generación de GPT-4o, exponiendo brechas significativas en su integración dinámica de conocimiento. Nuestro estudio aboga por el desarrollo de benchmarks y estrategias de entrenamiento más robustos que vayan más allá de la alineación superficial, enfatizando la generación multimodal basada en el contexto y el razonamiento.
Recientemente, sistemas de pensamiento lento como GPT-o1 y DeepSeek-R1 han demostrado un gran potencial para resolver problemas desafiantes mediante la reflexión explícita. Superan significativamente a los mejores modelos de pensamiento rápido, como GPT-4o, en varios benchmarks de matemáticas y ciencias. Sin embargo, sus capacidades de razonamiento multimodal siguen siendo similares a las de los modelos de pensamiento rápido. Por ejemplo, el rendimiento de GPT-o1 en benchmarks como MathVista, MathVerse y MathVision es comparable al de los modelos de pensamiento rápido. En este artículo, nuestro objetivo es mejorar las capacidades de pensamiento lento de los modelos de visión y lenguaje utilizando aprendizaje por refuerzo (sin depender de la destilación) para avanzar el estado del arte. Primero, adaptamos el algoritmo GRPO con una técnica novedosa llamada Reproducción Selectiva de Muestras (SSR, por sus siglas en inglés) para abordar el problema de las ventajas que desaparecen. Aunque este enfoque ofrece un rendimiento sólido, los modelos entrenados con RL resultantes muestran una reflexión o verificación propia limitada. Para fomentar aún más el pensamiento lento, introducimos el Replanteamiento Forzado, que añade un desencadenante textual de replanteamiento al final de las ejecuciones iniciales en el entrenamiento de RL, aplicando explícitamente un paso de razonamiento de autorreflexión. Al combinar estas dos técnicas, nuestro modelo, VL-Rethinker, avanza los puntajes de referencia en MathVista, MathVerse y MathVision, logrando un 80.3%, 61.8% y 43.9% respectivamente. VL-Rethinker también alcanza el estado del arte (SoTA) de código abierto en benchmarks multidisciplinarios como MMMU-Pro, EMMA y MEGA-Bench, reduciendo la brecha con GPT-o1.
Presentamos FUSION, una familia de modelos de lenguaje multimodal de gran escala (MLLMs) con un paradigma de alineación e integración completa entre visión y lenguaje. A diferencia de los métodos existentes que dependen principalmente de la interacción tardía de modalidades durante la decodificación del LLM, nuestro enfoque logra una integración profunda y dinámica a lo largo de toda la pipeline de procesamiento. Para ello, proponemos Codificación Visual Unificada Guiada por Texto, incorporando información textual en la codificación visual para lograr una integración a nivel de píxeles. Además, diseñamos Decodificación de Alineación Recursiva Consciente del Contexto, que agrega recursivamente características visuales condicionadas por el contexto textual durante la decodificación, permitiendo una integración semántica detallada a nivel de pregunta. Para guiar el mapeo de características y mitigar las discrepancias entre modalidades, desarrollamos la Pérdida de Mapeo Semántico Doblemente Supervisado. Adicionalmente, construimos un conjunto de datos sintetizado de Preguntas y Respuestas (QA) impulsado por lenguaje mediante un nuevo método de síntesis de datos, priorizando pares QA de alta calidad para optimizar la integración de características guiada por texto. Sobre estas bases, entrenamos FUSION en dos escalas—3B y 8B—y demostramos que nuestro enfoque de integración de modalidades completas supera significativamente a los métodos existentes con solo 630 tokens visuales. Notablemente, FUSION 3B supera a Cambrian-1 8B y Florence-VL 8B en la mayoría de los benchmarks. FUSION 3B continúa superando a Cambrian-1 8B incluso cuando se limita a 300 tokens visuales. Nuestros estudios de ablación muestran que FUSION supera a LLaVA-NeXT en más de la mitad de los benchmarks bajo la misma configuración sin resolución dinámica, destacando la efectividad de nuestro enfoque. Publicamos nuestro código, pesos del modelo y conjunto de datos. https://github.com/starriver030515/FUSION
Generar código de alta calidad que resuelva tareas de programación complejas es un desafío, especialmente con los modelos basados en decodificadores actuales que producen salidas altamente estocásticas. En la generación de código, incluso errores menores pueden romper fácilmente la solución completa. Aprovechar múltiples soluciones muestreadas puede mejorar significativamente la calidad general de la salida. Una forma efectiva de mejorar la generación de código es combinar un modelo de generación de código con un modelo de reranking, que selecciona la mejor solución entre las muestras generadas. Proponemos un enfoque novedoso de autoentrenamiento iterativo para entrenar modelos de reranking utilizando Optimización de Política Proximal (PPO), con el objetivo de mejorar tanto la precisión del reranking como el proceso general de generación de código. A diferencia de los enfoques tradicionales de PPO, donde el enfoque está en optimizar un modelo generativo con un modelo de recompensa, nuestro método enfatiza el desarrollo de un modelo robusto de recompensa/reranking. Este modelo mejora la calidad del código generado mediante el reranking y aborda problemas y errores que el modelo de recompensa podría pasar por alto durante la alineación de PPO con el reranker. Nuestro método refina iterativamente el conjunto de entrenamiento reevaluando las salidas, identificando ejemplos negativos de alta puntuación e incorporándolos en el ciclo de entrenamiento, lo que impulsa el rendimiento del modelo. Nuestra evaluación en el conjunto de datos MultiPL-E demuestra que nuestro modelo de 13.4 mil millones de parámetros supera en calidad de generación de código a un modelo de 33 mil millones, siendo tres veces más rápido. Además, logra un rendimiento comparable a GPT-4 y lo supera en un lenguaje de programación.
La comprensión de videos de contexto largo en modelos de lenguaje multimodal de gran escala (MLLMs) enfrenta un desafío crítico: equilibrar la eficiencia computacional con la retención de patrones espacio-temporales detallados. Los enfoques existentes (por ejemplo, muestreo disperso, muestreo denso con baja resolución y compresión de tokens) sufren una pérdida significativa de información en la dinámica temporal, los detalles espaciales o las interacciones sutiles, particularmente en videos con movimientos complejos o resoluciones variables. Para abordar esto, proponemos Mavors, un marco novedoso que introduce una representación de video multi-granularidad para el modelado holístico de videos largos. Específicamente, Mavors codifica directamente el contenido de video en bruto en representaciones latentes a través de dos componentes principales: 1) un Codificador Visual Intra-fragmento (IVE) que preserva características espaciales de alta resolución mediante convoluciones 3D y Transformadores Visuales, y 2) un Agregador de Características Inter-fragmento (IFA) que establece coherencia temporal entre fragmentos utilizando modelado de dependencias basado en transformadores con codificaciones de posición rotatorias a nivel de fragmento. Además, el marco unifica la comprensión de imágenes y videos al tratar las imágenes como videos de un solo fotograma mediante descomposición sub-imagen. Los experimentos en diversos benchmarks demuestran la superioridad de Mavors en mantener tanto la fidelidad espacial como la continuidad temporal, superando significativamente a los métodos existentes en tareas que requieren razonamiento espacio-temporal detallado.
Los agentes web permiten a los usuarios realizar tareas en navegadores web mediante interacción en lenguaje natural. Evaluar las trayectorias de los agentes web es un problema importante, ya que nos ayuda a determinar si el agente completó con éxito las tareas. Los métodos basados en reglas son ampliamente utilizados para este propósito, pero son difíciles de extender a nuevas tareas y no siempre reconocen trayectorias exitosas. Podríamos lograr una mayor precisión mediante la evaluación humana, pero el proceso sería sustancialmente más lento y costoso. Las evaluaciones automáticas con LLMs podrían evitar los desafíos de diseñar nuevas reglas y anotar manualmente las trayectorias, permitiendo una evaluación más rápida y rentable. Sin embargo, no está claro cuán efectivas son para evaluar agentes web. Con este fin, proponemos AgentRewardBench, el primer benchmark para evaluar la efectividad de los jueces LLM en la evaluación de agentes web. AgentRewardBench contiene 1302 trayectorias en 5 benchmarks y 4 LLMs. Cada trayectoria en AgentRewardBench es revisada por un experto, quien responde preguntas relacionadas con el éxito, los efectos secundarios y la repetitividad del agente. Utilizando nuestro benchmark, evaluamos 12 jueces LLM y encontramos que ningún LLM sobresale en todos los benchmarks. También encontramos que la evaluación basada en reglas utilizada por los benchmarks comunes tiende a subreportar la tasa de éxito de los agentes web, destacando una debilidad clave de la evaluación basada en reglas y la necesidad de desarrollar evaluaciones automáticas más flexibles. Publicamos el benchmark en: https://agent-reward-bench.github.io
Presentamos S1-Bench, un nuevo benchmark diseñado para evaluar el rendimiento de los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) en tareas simples que favorecen el pensamiento intuitivo del sistema 1 en lugar del razonamiento deliberativo del sistema 2. Si bien los LRMs han logrado avances significativos en tareas de razonamiento complejo mediante cadenas de pensamiento explícitas, su dependencia del pensamiento analítico profundo puede limitar sus capacidades de pensamiento del sistema 1. Además, actualmente no existe un benchmark para evaluar el rendimiento de los LRMs en tareas que requieren dichas capacidades. Para llenar este vacío, S1-Bench presenta un conjunto de preguntas simples, diversas y naturalmente claras en múltiples dominios e idiomas, diseñadas específicamente para evaluar el rendimiento de los LRMs en este tipo de tareas. Nuestra evaluación exhaustiva de 22 LRMs revela tendencias significativamente menos eficientes, con salidas que promedian 15.5 veces más largas que las de los modelos de lenguaje pequeños tradicionales (LLMs). Además, los LRMs a menudo identifican respuestas correctas al principio pero continúan deliberando innecesariamente, y algunos modelos incluso producen numerosos errores. Estos hallazgos resaltan los patrones de razonamiento rígidos de los LRMs actuales y subrayan el desarrollo sustancial necesario para lograr capacidades de pensamiento dual equilibradas que puedan adaptarse adecuadamente a la complejidad de la tarea.
Los recientes avances en el post-entrenamiento basado en aprendizaje por refuerzo (RL) han llevado a mejoras notables en los modelos de lenguaje grandes (LLMs), particularmente en la potenciación de sus capacidades de razonamiento para manejar tareas complejas. Sin embargo, la mayoría de los métodos existentes tratan los datos de entrenamiento como un todo unificado, pasando por alto el hecho de que el entrenamiento moderno de LLMs a menudo implica una mezcla de datos provenientes de diversas distribuciones, que varían tanto en su origen como en su dificultad. Esta heterogeneidad introduce un desafío clave: cómo programar de manera adaptativa el entrenamiento a través de las distribuciones para optimizar la eficiencia del aprendizaje. En este artículo, presentamos un marco de aprendizaje curricular fundamentado en la noción de capacidad de aprendizaje a nivel de distribución. Nuestra idea central es que la magnitud de las ventajas de la política refleja cuánto puede beneficiarse aún un modelo de un entrenamiento adicional en una distribución dada. Basándonos en esto, proponemos un marco de aprendizaje curricular a nivel de distribución para el post-entrenamiento de LLMs basado en RL, que aprovecha el principio del Límite Superior de Confianza (UCB) para ajustar dinámicamente las probabilidades de muestreo para diferentes distribuciones. Este enfoque prioriza distribuciones con una ventaja promedio alta (explotación) o un bajo recuento de muestras (exploración), resultando en un programa de entrenamiento adaptativo y teóricamente fundamentado. Instanciamos nuestro marco de aprendizaje curricular utilizando GRPO como el algoritmo de RL subyacente y demostramos su efectividad en conjuntos de datos de razonamiento lógico con múltiples niveles de dificultad y fuentes. Nuestros experimentos muestran que nuestro marco mejora significativamente la velocidad de convergencia y el rendimiento final, destacando el valor de las estrategias curriculares conscientes de la distribución en el post-entrenamiento de LLMs. Código: https://github.com/ZhentingWang/DUMP.
Las representaciones de imágenes suelen evaluarse mediante protocolos específicos y desconectados para cada tarea, lo que lleva a una comprensión fragmentada de las capacidades de los modelos. Por ejemplo, no está claro si un modelo de incrustación de imágenes que es hábil para agrupar imágenes es igualmente bueno para recuperar imágenes relevantes dado un fragmento de texto. Introducimos el Massive Image Embedding Benchmark (MIEB) para evaluar el rendimiento de los modelos de incrustación de imágenes y de imagen-texto en el espectro más amplio hasta la fecha. MIEB abarca 38 idiomas y 130 tareas individuales, que agrupamos en 8 categorías de alto nivel. Evaluamos 50 modelos en nuestro benchmark, encontrando que ningún método domina en todas las categorías de tareas. Revelamos capacidades ocultas en modelos de visión avanzados, como su representación visual precisa de textos, y sus capacidades aún limitadas en codificaciones intercaladas y en la coincidencia de imágenes y textos en presencia de factores de confusión. También mostramos que el rendimiento de los codificadores de visión en MIEB se correlaciona altamente con su rendimiento cuando se utilizan en modelos de lenguaje multimodal de gran escala. Nuestro código, conjunto de datos y tabla de clasificación están disponibles públicamente en https://github.com/embeddings-benchmark/mteb.
La simulación social está transformando la investigación tradicional en ciencias sociales al modelar el comportamiento humano a través de interacciones entre individuos virtuales y sus entornos. Con los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), este enfoque ha demostrado un creciente potencial para capturar diferencias individuales y predecir comportamientos grupales. Sin embargo, los métodos existentes enfrentan desafíos de alineación relacionados con el entorno, los usuarios objetivo, los mecanismos de interacción y los patrones de comportamiento. Con este fin, presentamos SocioVerse, un modelo de mundo impulsado por agentes LLM para la simulación social. Nuestro marco cuenta con cuatro componentes de alineación potentes y un grupo de usuarios de 10 millones de individuos reales. Para validar su efectividad, realizamos experimentos de simulación a gran escala en tres dominios distintos: política, noticias y economía. Los resultados demuestran que SocioVerse puede reflejar dinámicas poblacionales a gran escala mientras garantiza diversidad, credibilidad y representatividad mediante procedimientos estandarizados y ajustes manuales mínimos.
Los agentes de Interfaz Gráfica de Usuario (GUI) ofrecen soluciones multiplataforma para automatizar tareas digitales complejas, con un potencial significativo para transformar los flujos de trabajo de productividad. Sin embargo, su rendimiento suele verse limitado por la escasez de datos de trayectoria de alta calidad. Para abordar esta limitación, proponemos entrenar Modelos de Lenguaje Visual (VLMs) en tareas ricas en datos e intensivas en razonamiento durante una etapa intermedia de entrenamiento dedicada, y luego examinamos cómo la incorporación de estas tareas facilita la generalización a escenarios de planificación de GUI. Específicamente, exploramos una variedad de tareas con datos de ajuste de instrucciones fácilmente disponibles, incluyendo percepción de GUI, razonamiento multimodal y razonamiento textual. A través de extensos experimentos en 11 tareas de entrenamiento intermedio, demostramos que: (1) La generalización de tareas resulta altamente efectiva, obteniendo mejoras sustanciales en la mayoría de los escenarios. Por ejemplo, el razonamiento matemático multimodal mejora el rendimiento en AndroidWorld en un 6.3% absoluto. Notablemente, los datos matemáticos basados únicamente en texto mejoran significativamente el rendimiento de los agentes web de GUI, logrando una mejora del 5.6% en WebArena y del 5.4% en AndroidWorld, destacando una notable generalización multimodal desde dominios basados en texto hacia dominios visuales; (2) Contrario a suposiciones previas, los datos de percepción de GUI - anteriormente considerados estrechamente alineados con las tareas de los agentes de GUI y ampliamente utilizados para el entrenamiento - tienen un impacto comparativamente limitado en el rendimiento final; (3) Basándonos en estas observaciones, identificamos las tareas de entrenamiento intermedio más efectivas y seleccionamos conjuntos de datos mixtos optimizados, resultando en mejoras absolutas de rendimiento del 8.0% en WebArena y del 12.2% en AndroidWorld. Nuestro trabajo proporciona valiosas ideas sobre la transferencia de conocimiento entre dominios para agentes de GUI y ofrece un enfoque práctico para abordar los desafíos de escasez de datos en este campo emergente. El código, los datos y los modelos estarán disponibles en https://github.com/hkust-nlp/GUIMid.
Recientemente, mejorar la capacidad de razonamiento de los modelos multimodales grandes (LMMs) mediante aprendizaje por refuerzo ha logrado grandes avances. Sin embargo, la mayoría de los trabajos existentes se basan en conjuntos de datos altamente intensivos en razonamiento, como matemáticas y código, y los investigadores generalmente eligen modelos a gran escala como base. Argumentamos que explorar las capacidades de razonamiento de modelos a pequeña escala sigue siendo valioso para investigadores con recursos computacionales limitados. Además, permitir que los modelos expliquen sus procesos de razonamiento en conjuntos de datos generales de preguntas y respuestas es igualmente significativo. Por lo tanto, presentamos el modelo de razonamiento de video a pequeña escala TinyLLaVA-Video-R1. Basado en TinyLLaVA-Video, un modelo de comprensión de video entrenado de manera trazable con no más de 4B parámetros, no solo demuestra capacidades de razonamiento y pensamiento significativamente mejoradas después de utilizar aprendizaje por refuerzo en conjuntos de datos generales de Video-QA, sino que también exhibe la característica emergente de "momentos de comprensión". Además, compartimos una serie de hallazgos experimentales, con el objetivo de proporcionar ideas prácticas para la futura exploración de las habilidades de razonamiento (pensamiento) de video en modelos a pequeña escala. Está disponible en https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
La IA está desempeñando un papel cada vez más crucial en la transformación de cómo se realizan los descubrimientos científicos. Presentamos The AI Scientist-v2, un sistema agente de extremo a extremo capaz de producir el primer artículo de taller generado completamente por IA y aceptado en una revisión por pares. Este sistema formula iterativamente hipótesis científicas, diseña y ejecuta experimentos, analiza y visualiza datos, y redacta de manera autónoma manuscritos científicos. En comparación con su predecesor (v1, Lu et al., 2024 arXiv:2408.06292), The AI Scientist-v2 elimina la dependencia de plantillas de código escritas por humanos, generaliza eficazmente en diversos dominios de aprendizaje automático y aprovecha una novedosa metodología de búsqueda en árbol agente progresiva gestionada por un agente administrador de experimentos dedicado. Además, mejoramos el componente de revisor de IA integrando un bucle de retroalimentación de un Modelo de Lenguaje-Visión (VLM) para el refinamiento iterativo del contenido y la estética de las figuras. Evaluamos The AI Scientist-v2 enviando tres manuscritos completamente autónomos a un taller de ICLR con revisión por pares. Notablemente, un manuscrito obtuvo puntuaciones lo suficientemente altas como para superar el umbral promedio de aceptación humana, marcando la primera instancia de un artículo generado completamente por IA que supera con éxito una revisión por pares. Este logro destaca la creciente capacidad de la IA para llevar a cabo todos los aspectos de la investigación científica. Anticipamos que los avances adicionales en las tecnologías de descubrimiento científico autónomo tendrán un impacto profundo en la generación de conocimiento humano, permitiendo una escalabilidad sin precedentes en la productividad de la investigación y acelerando significativamente los avances científicos, beneficiando enormemente a la sociedad en general. Hemos liberado el código en https://github.com/SakanaAI/AI-Scientist-v2 para fomentar el desarrollo futuro de esta tecnología transformadora. También discutimos el papel de la IA en la ciencia, incluyendo la seguridad de la IA.
Los científicos a menudo infieren procedimientos abstractos a partir de instancias específicas de problemas y utilizan estas abstracciones para generar nuevas instancias relacionadas. Por ejemplo, los programas que codifican las reglas y propiedades formales de un sistema han sido útiles en campos que van desde el aprendizaje por refuerzo (entornos procedimentales) hasta la física (motores de simulación). Estos programas pueden verse como funciones que se ejecutan para producir diferentes salidas según sus parametrizaciones (por ejemplo, la configuración de un gridworld o las condiciones físicas iniciales). Introducimos el término EFA (Abstracción Funcional Ejecutable) para denotar tales programas en problemas matemáticos. Se ha demostrado que construcciones similares a los EFA son útiles para el razonamiento matemático como generadores de problemas para probar modelos. Sin embargo, trabajos previos se han limitado a abstracciones para matemáticas de nivel escolar (cuyas reglas simples son fáciles de codificar en programas), mientras que la generación de EFAs para matemáticas avanzadas hasta ahora ha requerido ingeniería humana. Exploramos la construcción automática de EFAs para problemas matemáticos avanzados. Operacionalizamos la tarea de construir EFAs automáticamente como una tarea de síntesis de programas y desarrollamos EFAGen, que condiciona un modelo de lenguaje grande (LLM) en un problema matemático inicial y su solución paso a paso para generar programas EFA candidatos que sean fieles al problema generalizado y a la clase de solución subyacente al problema inicial. Además, formalizamos las propiedades que cualquier EFA válido debe poseer en términos de pruebas unitarias ejecutables, y mostramos cómo estas pruebas pueden usarse como recompensas verificables para entrenar LLMs para que se conviertan en mejores escritores de EFAs. Demostramos que los EFAs construidos por EFAGen se comportan de manera racional al mantenerse fieles a los problemas iniciales, producen variaciones de problemas aprendibles, y que EFAGen puede inferir EFAs a partir de múltiples fuentes diversas de problemas matemáticos de nivel competitivo. Finalmente, mostramos usos posteriores de los EFAs escritos por modelos, como encontrar variaciones de problemas que sean más difíciles o más fáciles de resolver para un aprendiz, así como la generación de datos.
El razonamiento efectivo es crucial para resolver problemas matemáticos complejos. Los modelos de lenguaje de gran escala (LLMs) recientes han mejorado el rendimiento al escalar el cómputo en tiempo de prueba mediante cadenas de razonamiento largas. Sin embargo, los modelos basados en transformadores están inherentemente limitados en la extensión de la longitud del contexto debido a su complejidad computacional cuadrática y requisitos de memoria lineal. En este artículo, presentamos un nuevo modelo híbrido de razonamiento RNN lineal, M1, construido sobre la arquitectura Mamba, que permite una inferencia eficiente en memoria. Nuestro enfoque aprovecha un proceso de destilación de modelos de razonamiento existentes y se mejora aún más mediante entrenamiento con RL. Los resultados experimentales en los benchmarks AIME y MATH muestran que M1 no solo supera a los modelos RNN lineales anteriores, sino que también iguala el rendimiento de los modelos de razonamiento destilados Deepseek R1 de última generación a una escala similar. También comparamos nuestra velocidad de generación con un motor de inferencia de propósito general de alto rendimiento, vLLM, y observamos una aceleración de más de 3x en comparación con un transformador del mismo tamaño. Con la aceleración del rendimiento, logramos una mayor precisión en comparación con los modelos de razonamiento transformadores destilados DeepSeek R1 bajo un tiempo fijo de generación utilizando votación de autoconsistencia. En general, introducimos un modelo de razonamiento híbrido Mamba y proporcionamos un enfoque más efectivo para escalar la generación en tiempo de prueba utilizando autoconsistencia o cadenas largas de razonamiento.
Los recientes avances en los Modelos de Visión y Lenguaje a Gran Escala han demostrado capacidades notables. Sin embargo, a menudo fallan cuando se enfrentan a tareas de razonamiento complejo que los humanos suelen abordar mediante ayudas visuales y un pensamiento deliberado y paso a paso. Aunque los métodos existentes han explorado el pensamiento lento basado en texto o asistencia visual rudimentaria, no logran capturar la naturaleza intrincada e intercalada de los procesos de razonamiento visual-verbal humanos. Para superar estas limitaciones e inspirados por los mecanismos del pensamiento lento en la cognición humana, presentamos VisuoThink, un marco novedoso que integra de manera fluida los dominios visuoespaciales y lingüísticos. VisuoThink facilita el pensamiento lento multimodal al permitir un razonamiento visual-textual progresivo e incorpora escalado en tiempo de prueba mediante búsqueda en árbol con visión anticipada. Experimentos exhaustivos demuestran que VisuoThink mejora significativamente las capacidades de razonamiento mediante escalado en tiempo de inferencia, incluso sin ajuste fino, logrando un rendimiento de vanguardia en tareas que involucran geometría y razonamiento espacial.
Los LLM recientes han mejorado significativamente las capacidades de razonamiento, principalmente al incluir un proceso de Pensamiento explícito y extenso como parte de la generación. En este artículo, cuestionamos si este pensamiento explícito es necesario. Utilizando el modelo de última generación DeepSeek-R1-Distill-Qwen, descubrimos que omitir el proceso de pensamiento mediante indicaciones simples, denominado NoThinking, puede ser sorprendentemente efectivo. Al controlar el número de tokens, NoThinking supera a Thinking en un conjunto diverso de siete conjuntos de datos desafiantes de razonamiento—incluyendo resolución de problemas matemáticos, demostración de teoremas formales y codificación—especialmente en configuraciones de bajo presupuesto, por ejemplo, 51.3 frente a 28.9 en ACM 23 con 700 tokens. Notablemente, el rendimiento de NoThinking se vuelve más competitivo con pass@k a medida que k aumenta. Basándonos en esta observación, demostramos que un enfoque de escalado paralelo que utiliza NoThinking para generar N salidas de forma independiente y las agrega es altamente efectivo. Para la agregación, utilizamos verificadores específicos de la tarea cuando están disponibles, o aplicamos estrategias simples de mejor-de-N, como la selección basada en confianza. Nuestro método supera a una variedad de líneas base con latencia similar utilizando Thinking, y es comparable a Thinking con latencia significativamente mayor (hasta 9 veces). En conjunto, nuestra investigación fomenta una reconsideración de la necesidad de procesos de pensamiento extensos, al mismo tiempo que establece una referencia competitiva para lograr un fuerte rendimiento de razonamiento en configuraciones de bajo presupuesto o con baja latencia utilizando escalado paralelo.
El descubrimiento de ecuaciones científicas es una tarea fundamental en la historia del progreso científico, permitiendo la derivación de leyes que gobiernan los fenómenos naturales. Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han despertado interés para esta tarea debido a su potencial para aprovechar el conocimiento científico integrado en la generación de hipótesis. Sin embargo, evaluar las verdaderas capacidades de descubrimiento de estos métodos sigue siendo un desafío, ya que los puntos de referencia existentes a menudo se basan en ecuaciones comunes que son susceptibles de ser memorizadas por los LLMs, lo que lleva a métricas de rendimiento infladas que no reflejan el descubrimiento. En este artículo, presentamos LLM-SRBench, un punto de referencia integral con 239 problemas desafiantes en cuatro dominios científicos, diseñado específicamente para evaluar métodos de descubrimiento de ecuaciones científicas basados en LLMs, evitando la memorización trivial. Nuestro punto de referencia comprende dos categorías principales: LSR-Transform, que transforma modelos físicos comunes en representaciones matemáticas menos comunes para probar el razonamiento más allá de las formas memorizadas, y LSR-Synth, que introduce problemas sintéticos orientados al descubrimiento que requieren razonamiento basado en datos. A través de una evaluación extensa de varios métodos de vanguardia, utilizando tanto LLMs abiertos como cerrados, encontramos que el sistema con mejor rendimiento hasta ahora alcanza solo un 31,5% de precisión simbólica. Estos hallazgos resaltan los desafíos del descubrimiento de ecuaciones científicas, posicionando a LLM-SRBench como un recurso valioso para futuras investigaciones.
Los modelos de lenguaje de gran escala aprenden y continúan aprendiendo a través de la acumulación de actualizaciones basadas en gradientes, pero cómo las piezas individuales de nueva información afectan el conocimiento existente, llevando tanto a generalizaciones beneficiosas como a alucinaciones problemáticas, sigue siendo poco comprendido. Demostramos que, al aprender nueva información, los LLMs exhiben un efecto de "priming": aprender un nuevo hecho puede hacer que el modelo aplique ese conocimiento de manera inapropiada en contextos no relacionados. Para estudiar sistemáticamente este fenómeno, introducimos "Outlandish", un conjunto de datos cuidadosamente curado de 1320 muestras de texto diversas diseñadas para explorar cómo el nuevo conocimiento se filtra a través de la base de conocimiento existente de un LLM. Usando este conjunto de datos, mostramos que el grado de priming después de aprender nueva información puede predecirse midiendo la probabilidad de tokens de palabras clave antes del aprendizaje. Esta relación se mantiene robustamente en diferentes arquitecturas de modelos (PALM-2, Gemma, Llama), tamaños y etapas de entrenamiento. Finalmente, desarrollamos dos técnicas novedosas para modular cómo el nuevo conocimiento afecta el comportamiento existente del modelo: (1) una estrategia de aumento de texto de "escalones" y (2) un método de poda de actualizaciones "ignorar-k". Estos enfoques reducen los efectos de priming no deseados en un 50-95\% mientras preservan la capacidad del modelo para aprender nueva información. Nuestros hallazgos proporcionan tanto insights empíricos sobre cómo aprenden los LLMs como herramientas prácticas para mejorar la especificidad de la inserción de conocimiento en modelos de lenguaje. Materiales adicionales: https://sunchipsster1.github.io/projects/outlandish/
El auge de los personajes de IA impulsados por LLM plantea preocupaciones de seguridad, especialmente para usuarios humanos vulnerables con trastornos psicológicos. Para abordar estos riesgos, proponemos EmoAgent, un marco de IA multiagente diseñado para evaluar y mitigar los peligros para la salud mental en las interacciones humano-IA. EmoAgent consta de dos componentes: EmoEval simula usuarios virtuales, incluyendo aquellos que representan individuos mentalmente vulnerables, para evaluar los cambios en la salud mental antes y después de las interacciones con personajes de IA. Utiliza herramientas de evaluación psicológica y psiquiátrica clínicamente probadas (PHQ-9, PDI, PANSS) para evaluar los riesgos mentales inducidos por los LLM. EmoGuard actúa como intermediario, monitoreando el estado mental de los usuarios, prediciendo posibles daños y proporcionando retroalimentación correctiva para mitigar los riesgos. Los experimentos realizados en chatbots populares basados en personajes muestran que los diálogos emocionalmente envolventes pueden llevar a un deterioro psicológico en usuarios vulnerables, con un deterioro del estado mental en más del 34.4% de las simulaciones. EmoGuard reduce significativamente estas tasas de deterioro, destacando su papel en garantizar interacciones más seguras entre humanos y IA. Nuestro código está disponible en: https://github.com/1akaman/EmoAgent
La generación de descripciones en 3D, que tiene como objetivo describir el contenido de escenas 3D en lenguaje natural, sigue siendo un desafío significativo debido a la inherente dispersión de las nubes de puntos y la débil alineación multimodal en los métodos existentes. Para abordar estos desafíos, proponemos 3D CoCa, un marco unificado novedoso que combina de manera fluida el aprendizaje contrastivo visión-lenguaje con la generación de descripciones en 3D en una única arquitectura. Nuestro enfoque aprovecha un modelo base congelado de CLIP visión-lenguaje para proporcionar ricos conocimientos semánticos previos, un codificador de escenas 3D espacialmente consciente para capturar el contexto geométrico, y un decodificador multimodal para generar descripciones detalladas. A diferencia de los métodos previos de dos etapas que dependen de propuestas explícitas de objetos, 3D CoCa optimiza conjuntamente los objetivos contrastivos y de generación de descripciones en un espacio de características compartido, eliminando la necesidad de detectores externos o propuestas manuales. Este paradigma de entrenamiento conjunto produce un razonamiento espacial más robusto y una base semántica más rica al alinear las representaciones 3D y textuales. Experimentos exhaustivos en los benchmarks ScanRefer y Nr3D demuestran que 3D CoCa supera significativamente a los métodos más avanzados actuales en un 10.2% y 5.76% en CIDEr a 0.5IoU, respectivamente. El código estará disponible en https://github.com/AIGeeksGroup/3DCoCa.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) les han permitido acercarse a capacidades de persuasión a nivel humano. Sin embargo, este potencial también plantea preocupaciones sobre los riesgos de seguridad asociados a la persuasión impulsada por LLMs, particularmente su capacidad para ejercer influencia poco ética mediante manipulación, engaño, explotación de vulnerabilidades y otras tácticas dañinas. En este trabajo, presentamos una investigación sistemática sobre la seguridad en la persuasión de LLMs a través de dos aspectos críticos: (1) si los LLMs rechazan adecuadamente tareas de persuasión poco éticas y evitan estrategias poco éticas durante su ejecución, incluyendo casos en los que el objetivo inicial de persuasión parece éticamente neutral, y (2) cómo factores influyentes como los rasgos de personalidad y las presiones externas afectan su comportamiento. Para ello, introducimos PersuSafety, el primer marco integral para la evaluación de la seguridad en la persuasión, que consta de tres etapas: creación de escenarios de persuasión, simulación de conversaciones persuasivas y evaluación de la seguridad en la persuasión. PersuSafety abarca 6 temas diversos de persuasión poco ética y 15 estrategias poco éticas comunes. A través de experimentos extensos en 8 LLMs ampliamente utilizados, observamos preocupaciones significativas de seguridad en la mayoría de los LLMs, incluyendo la incapacidad para identificar tareas de persuasión dañinas y el uso de diversas estrategias de persuasión poco éticas. Nuestro estudio llama a prestar más atención para mejorar la alineación de seguridad en conversaciones progresivas y orientadas a objetivos, como la persuasión.
Los modelos de lenguaje de gran escala (LLMs) habilitados para razonamiento han demostrado recientemente un rendimiento impresionante en tareas lógicas y matemáticas complejas, aunque su efectividad en la evaluación de la generación de lenguaje natural sigue sin explorarse. Este estudio compara sistemáticamente los LLMs basados en razonamiento (DeepSeek-R1 y OpenAI o3) con sus contrapartes sin razonamiento en tareas de evaluación de traducción automática (MT) y resumen de texto (TS). Evaluamos ocho modelos en tres categorías arquitectónicas, incluyendo modelos de razonamiento de última generación, sus variantes destiladas (que van desde 8B hasta 70B parámetros) y LLMs convencionales equivalentes sin razonamiento. Nuestros experimentos en los benchmarks WMT23 y SummEval revelan que los beneficios de las capacidades de razonamiento dependen en gran medida del modelo y la tarea: mientras que los modelos OpenAI o3-mini muestran mejoras consistentes en el rendimiento con un mayor uso de razonamiento, DeepSeek-R1 tiene un rendimiento inferior en comparación con su variante sin razonamiento, excepto en ciertos aspectos de la evaluación de TS. El análisis de correlación demuestra que un mayor uso de tokens de razonamiento se correlaciona positivamente con la calidad de la evaluación en los modelos o3-mini. Además, nuestros resultados muestran que la destilación de capacidades de razonamiento mantiene un rendimiento razonable en modelos de tamaño mediano (32B), pero se degrada sustancialmente en variantes más pequeñas (8B). Este trabajo proporciona la primera evaluación integral de los LLMs de razonamiento para la evaluación de NLG y ofrece insights sobre su uso práctico.
El razonamiento multimodal, que integra señales lingüísticas y visuales en la resolución de problemas y la toma de decisiones, es un aspecto fundamental de la inteligencia humana y un paso crucial hacia la inteligencia artificial general. Sin embargo, la evaluación de las capacidades de razonamiento multimodal en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) sigue siendo insuficiente. La mayoría de los benchmarks de razonamiento existentes están limitados por un tamaño de datos reducido, una cobertura de dominio estrecha y una distribución de conocimiento no estructurada. Para cerrar estas brechas, presentamos MDK12-Bench, un benchmark multidisciplinario que evalúa las capacidades de razonamiento de los MLLMs mediante exámenes reales de K-12. Abarcando seis disciplinas (matemáticas, física, química, biología, geografía y ciencias de la información), nuestro benchmark comprende 140K instancias de razonamiento en diversos niveles de dificultad, desde la escuela primaria hasta el 12º grado. Incluye 6,827 anotaciones de puntos de conocimiento a nivel de instancia basadas en una estructura de conocimiento bien organizada, explicaciones detalladas de respuestas, etiquetas de dificultad y particiones por año, proporcionando una plataforma robusta para una evaluación integral. Además, presentamos un novedoso marco de evaluación dinámica para mitigar problemas de contaminación de datos mediante la generación de formas de preguntas, tipos de preguntas y estilos de imágenes durante la evaluación. Experimentos extensos en MDK12-Bench revelan las limitaciones significativas de los MLLMs actuales en el razonamiento multimodal. Los hallazgos en nuestro benchmark ofrecen insights para el desarrollo de la próxima generación de modelos. Nuestros datos y códigos están disponibles en https://github.com/LanceZPF/MDK12.
Para reducir la sobrecarga de desarrollo y permitir una integración fluida entre los posibles componentes que conforman cualquier aplicación de IA generativa, recientemente se ha lanzado y ampliamente adoptado el Protocolo de Contexto de Modelo (MCP, por sus siglas en inglés) (Anthropic, 2024). El MCP es un protocolo abierto que estandariza las llamadas API a modelos de lenguaje grandes (LLMs), fuentes de datos y herramientas agentes. Al conectar múltiples servidores MCP, cada uno definido con un conjunto de herramientas, recursos y prompts, los usuarios pueden definir flujos de trabajo automatizados completamente impulsados por LLMs. Sin embargo, demostramos que el diseño actual del MCP conlleva una amplia gama de riesgos de seguridad para los usuarios finales. En particular, mostramos que los LLMs líderes en la industria pueden ser coaccionados para utilizar herramientas MCP con el fin de comprometer el sistema de un desarrollador de IA mediante diversos ataques, como la ejecución de código malicioso, el control de acceso remoto y el robo de credenciales. Para mitigar proactivamente estos y otros ataques relacionados, presentamos una herramienta de auditoría de seguridad, MCPSafetyScanner, la primera herramienta agente diseñada para evaluar la seguridad de un servidor MCP arbitrario. MCPScanner utiliza varios agentes para (a) determinar automáticamente muestras adversarias dadas las herramientas y recursos de un servidor MCP; (b) buscar vulnerabilidades relacionadas y remediaciones basadas en esas muestras; y (c) generar un informe de seguridad que detalla todos los hallazgos. Nuestro trabajo destaca serios problemas de seguridad en los flujos de trabajo agentes de propósito general, al mismo tiempo que proporciona una herramienta proactiva para auditar la seguridad de los servidores MCP y abordar las vulnerabilidades detectadas antes de su implementación. La herramienta de auditoría de servidores MCP descrita, MCPSafetyScanner, está disponible gratuitamente en: https://github.com/johnhalloran321/mcpSafetyScanner.
Los modelos de difusión preentrenados a gran escala han producido resultados excelentes en el campo de la generación condicional de imágenes. Sin embargo, la restauración de murales antiguos, como una tarea descendente importante en este campo, plantea desafíos significativos a los métodos de restauración basados en modelos de difusión debido a sus grandes áreas defectuosas y la escasez de muestras de entrenamiento. Las tareas de restauración condicional se centran más en si la parte restaurada cumple con los estándares estéticos de la restauración de murales en términos de estilo general y detalles de las uniones, y tales métricas para evaluar complementos heurísticos de imágenes son escasas en la investigación actual. Por lo tanto, proponemos DiffuMural, un mecanismo combinado de Convergencia Multi-escala y Difusión Colaborativa con ControlNet y pérdida de consistencia cíclica para optimizar la coincidencia entre las imágenes generadas y el control condicional. DiffuMural demuestra capacidades sobresalientes en la restauración de murales, aprovechando datos de entrenamiento de 23 murales a gran escala de Dunhuang que exhiben una estética visual consistente. El modelo sobresale en la restauración de detalles intrincados, logrando una apariencia general coherente y abordando los desafíos únicos planteados por murales incompletos que carecen de fundamento factual. Nuestro marco de evaluación incorpora cuatro métricas clave para evaluar cuantitativamente murales incompletos: precisión factual, detalle textural, semántica contextual y coherencia visual holística. Además, integramos evaluaciones de valor humanístico para garantizar que los murales restaurados conserven su significado cultural y artístico. Experimentos extensos validan que nuestro método supera a los enfoques más avanzados (SOTA) tanto en métricas cualitativas como cuantitativas.