Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos MiniMax-M1, el primer modelo de razonamiento a gran escala con atención híbrida y pesos abiertos del mundo. MiniMax-M1 está impulsado por una arquitectura híbrida de Mixture-of-Experts (MoE) combinada con un mecanismo de atención relámpago. El modelo se desarrolló basándose en nuestro modelo anterior, MiniMax-Text-01, que contiene un total de 456 mil millones de parámetros, con 45.9 mil millones de parámetros activados por token. El modelo M1 admite de forma nativa una longitud de contexto de 1 millón de tokens, 8 veces el tamaño de contexto de DeepSeek R1. Además, el mecanismo de atención relámpago en MiniMax-M1 permite un escalado eficiente del cómputo en tiempo de prueba. Estas propiedades hacen que M1 sea especialmente adecuado para tareas complejas que requieren procesar entradas largas y un razonamiento extenso. MiniMax-M1 se entrena utilizando aprendizaje por refuerzo (RL) a gran escala en diversos problemas, incluyendo entornos de ingeniería de software basados en sandbox y del mundo real. Además de la ventaja inherente de eficiencia de M1 para el entrenamiento con RL, proponemos CISPO, un novedoso algoritmo de RL para mejorar aún más la eficiencia del RL. CISPO recorta los pesos de muestreo de importancia en lugar de las actualizaciones de tokens, superando a otras variantes competitivas de RL. La combinación de atención híbrida y CISPO permite que el entrenamiento completo de RL de MiniMax-M1 en 512 GPUs H800 se complete en solo tres semanas, con un costo de alquiler de apenas $534,700. Lanzamos dos versiones de los modelos MiniMax-M1 con presupuestos de pensamiento de 40K y 80K respectivamente, donde el modelo de 40K representa una fase intermedia del entrenamiento de 80K. Los experimentos en benchmarks estándar muestran que nuestros modelos son comparables o superiores a modelos de pesos abiertos fuertes como el original DeepSeek-R1 y Qwen3-235B, con fortalezas particulares en ingeniería de software compleja, utilización de herramientas y tareas de contexto largo. Publicamos MiniMax-M1 en https://github.com/MiniMax-AI/MiniMax-M1.
Los descubrimientos científicos dependen cada vez más de un razonamiento multimodal complejo basado en datos científicos intensivos en información y experiencia específica del dominio. Potenciados por puntos de referencia científicos de nivel experto, los Modelos de Lenguaje Multimodal (MLLMs) científicos tienen el potencial de mejorar significativamente este proceso de descubrimiento en flujos de trabajo realistas. Sin embargo, los puntos de referencia científicos actuales se centran principalmente en evaluar las capacidades de comprensión del conocimiento de los MLLMs, lo que lleva a una evaluación insuficiente de sus habilidades de percepción y razonamiento. Para abordar esta brecha, presentamos el punto de referencia "Examen Inicial de los Científicos" (SFE), diseñado para evaluar las capacidades cognitivas científicas de los MLLMs a través de tres niveles interconectados: percepción de señales científicas, comprensión de atributos científicos y razonamiento comparativo científico. Específicamente, SFE comprende 830 pares de preguntas y respuestas verificadas por expertos en tres tipos de preguntas, abarcando 66 tareas multimodales en cinco disciplinas de alto valor. Experimentos extensos revelan que los modelos actuales de última generación, GPT-3 e InternVL-3, logran solo un 34.08% y un 26.52% en SFE, lo que destaca un margen significativo de mejora para los MLLMs en ámbitos científicos. Esperamos que las perspectivas obtenidas en SFE faciliten avances adicionales en descubrimientos científicos potenciados por IA.
Los Agentes de Investigación Profunda (Deep Research Agents, DRAs) son una categoría destacada de agentes basados en modelos de lenguaje de gran escala (LLM). Al orquestar de manera autónoma exploraciones web de múltiples pasos, recuperación dirigida y síntesis de alto orden, transforman grandes cantidades de información en línea en informes de calidad analítica y ricos en citas, comprimiendo horas de investigación manual en minutos. Sin embargo, aún falta un punto de referencia integral para evaluar sistemáticamente las capacidades de estos agentes. Para cerrar esta brecha, presentamos DeepResearch Bench, un punto de referencia que consta de 100 tareas de investigación a nivel de doctorado, cada una cuidadosamente diseñada por expertos en 22 campos distintos. Evaluar los DRAs es intrínsecamente complejo y laborioso. Por ello, proponemos dos metodologías novedosas que logran una fuerte alineación con el juicio humano. La primera es un método basado en referencias con criterios adaptativos para evaluar la calidad de los informes de investigación generados. El otro marco se introduce para evaluar las capacidades de recuperación y recopilación de información de los DRAs, midiendo su recuento efectivo de citas y la precisión general de las mismas. Hemos liberado el código de DeepResearch Bench y componentes clave de estos marcos en https://github.com/Ayanami0730/deep_research_bench para acelerar el desarrollo de agentes prácticos basados en LLM.
Presentamos TransDiff, el primer modelo de generación de imágenes que combina un Transformer Autoregresivo (AR) con modelos de difusión. En este marco de modelado conjunto, TransDiff codifica etiquetas e imágenes en características semánticas de alto nivel y emplea un modelo de difusión para estimar la distribución de muestras de imágenes. En el benchmark de ImageNet 256x256, TransDiff supera significativamente a otros modelos de generación de imágenes basados en Transformer AR o modelos de difusión de manera independiente. Específicamente, TransDiff logra una Distancia de Fréchet Inception (FID) de 1.61 y un Puntaje Inception (IS) de 293.4, además de ofrecer una latencia de inferencia x2 más rápida en comparación con los métodos más avanzados basados en Transformer AR y x112 más rápida en comparación con modelos exclusivamente de difusión. Además, basándonos en el modelo TransDiff, introducimos un nuevo paradigma de generación de imágenes llamado Autoregresión Multi-Referencia (MRAR), que realiza generación autoregresiva prediciendo la siguiente imagen. MRAR permite al modelo referenciar múltiples imágenes generadas previamente, facilitando así el aprendizaje de representaciones más diversas y mejorando la calidad de las imágenes generadas en iteraciones posteriores. Al aplicar MRAR, el rendimiento de TransDiff mejora, reduciendo el FID de 1.61 a 1.42. Esperamos que TransDiff abra una nueva frontera en el campo de la generación de imágenes.
En este artículo, presentamos DoTA-RAG (Dynamic-of-Thought Aggregation RAG), un sistema de generación aumentada por recuperación optimizado para índices de conocimiento web de gran escala y alto rendimiento. Los pipelines tradicionales de RAG suelen enfrentar problemas de alta latencia y precisión limitada en conjuntos de datos masivos y diversos. DoTA-RAG aborda estos desafíos con un pipeline de tres etapas: reescritura de consultas, enrutamiento dinámico a subíndices especializados, y recuperación y clasificación en múltiples etapas. Además, mejoramos la recuperación evaluando y seleccionando un modelo de embeddings superior, re-embebiendo el gran corpus FineWeb-10BT. Asimismo, creamos un conjunto de datos diverso de preguntas y respuestas con 500 preguntas generadas mediante la configuración DataMorgana, abarcando una amplia gama de temas y formatos de WebOrganizer. DoTA-RAG mejora la puntuación de corrección de respuestas de 0.752 (línea base, utilizando el almacén de vectores preconstruido de LiveRAG) a 1.478, manteniendo una baja latencia, y logra una puntuación de corrección de 0.929 en el Live Challenge Day. Estos resultados destacan el potencial de DoTA-RAG para su implementación práctica en dominios que requieren acceso rápido y confiable a fuentes de conocimiento grandes y en evolución.
Los avances recientes en modelos de razonamiento a gran escala han permitido un razonamiento complejo y paso a paso, pero a menudo introducen una sobrecarga significativa, lo que resulta en salidas verbosas y redundantes que dificultan la eficiencia. En este estudio, examinamos si la autorreflexión explícita, señalada por tokens como "Espera" y "Hmm", es necesaria para un razonamiento avanzado. Proponemos NoWait, un enfoque simple pero efectivo que desactiva la autorreflexión explícita al suprimir estos tokens durante la inferencia. Experimentos exhaustivos en diez puntos de referencia que abarcan tareas de razonamiento textual, visual y de video muestran que NoWait reduce la longitud de la trayectoria de pensamiento en cadena hasta en un 27%-51% en cinco series de modelos de estilo R1, sin comprometer la utilidad del modelo. Por lo tanto, NoWait ofrece una solución plug-and-play para un razonamiento multimodal eficiente y que preserva la utilidad.
Presentamos Ego-R1, un marco novedoso para el razonamiento sobre videos egocéntricos ultra-largos (es decir, de días y semanas), el cual aprovecha un proceso estructurado de Cadena-de-Pensamiento-de-Herramientas (CoTT, por sus siglas en inglés), orquestado por un Agente Ego-R1 entrenado mediante aprendizaje por refuerzo (RL, por sus siglas en inglés). Inspirado en estrategias humanas de resolución de problemas, CoTT descompone el razonamiento complejo en pasos modulares, donde el agente de RL invoca herramientas específicas, una por paso, para responder de manera iterativa y colaborativa subpreguntas que abordan tareas como la recuperación temporal y la comprensión multimodal. Diseñamos un paradigma de entrenamiento en dos etapas que incluye el ajuste fino supervisado (SFT, por sus siglas en inglés) de un modelo de lenguaje preentrenado utilizando datos de CoTT y RL para permitir que nuestro agente proponga dinámicamente herramientas paso a paso para el razonamiento de largo alcance. Para facilitar el entrenamiento, construimos un conjunto de datos llamado Ego-R1 Data, que consiste en Ego-CoTT-25K para SFT y Ego-QA-4.4K para RL. Además, nuestro agente Ego-R1 es evaluado en un nuevo punto de referencia de preguntas y respuestas (QA, por sus siglas en inglés) sobre videos de una semana de duración, Ego-R1 Bench, que contiene pares de preguntas y respuestas verificadas por humanos provenientes de fuentes híbridas. Los resultados extensivos demuestran que el razonamiento dinámico y aumentado con herramientas mediante la cadena de pensamiento de nuestro Agente Ego-R1 puede abordar efectivamente los desafíos únicos de comprender videos egocéntricos ultra-largos, extendiendo significativamente la cobertura temporal de unas pocas horas a una semana.
En este trabajo, proporcionamos una revisión sistemática de los Modelos de Lenguaje de Difusión Discreta (dLLMs, por sus siglas en inglés) y los Modelos de Lenguaje Multimodal de Difusión Discreta (dMLLMs). A diferencia de los modelos autorregresivos (AR), los dLLMs y dMLLMs adoptan un paradigma de decodificación paralela de múltiples tokens, utilizando atención completa y una estrategia de generación basada en la eliminación de ruido. Este paradigma permite de manera natural la generación paralela, un control detallado de la salida y una percepción dinámica y consciente de la respuesta. Estas capacidades eran difíciles de lograr con los modelos AR. Recientemente, un número creciente de d(M)LLMs propietarios a escala industrial, así como una gran cantidad de d(M)LLMs académicos de código abierto, han demostrado un rendimiento comparable al de sus contrapartes autorregresivas, logrando una aceleración de hasta 10 veces en la velocidad de inferencia. El avance de los dLLMs y dMLLMs de difusión discreta ha sido impulsado en gran medida por el progreso en dos dominios. El primero es el desarrollo de los dLLMs y dMLLMs autorregresivos, que ha acumulado grandes cantidades de datos, puntos de referencia e infraestructura fundamental para el entrenamiento y la inferencia. El segundo dominio contribuyente es la evolución de los modelos matemáticos subyacentes a la difusión discreta. Juntos, estos avances han catalizado un aumento en la investigación de dLLMs y dMLLMs a principios de 2025. En este trabajo, presentamos una visión general exhaustiva de la investigación en los dominios de los dLLMs y dMLLMs. Rastreamos el desarrollo histórico de los dLLMs y dMLLMs, formalizamos los marcos matemáticos subyacentes y categorizamos los modelos representativos. Además, analizamos las técnicas clave para el entrenamiento y la inferencia, y resumimos las aplicaciones emergentes en los dominios del lenguaje, lenguaje-visión y biología. Concluimos discutiendo las direcciones futuras para la investigación y la implementación. Colección de artículos: https://github.com/LiQiiiii/DLLM-Survey
Los datos desempeñan el papel más destacado en cómo los modelos de lenguaje adquieren habilidades y conocimientos. La falta de conjuntos de datos masivos y bien organizados para el preentrenamiento resulta en pipelines de datos costosos e inaccesibles. Presentamos Essential-Web v1.0, un conjunto de datos de 24 billones de tokens en el que cada documento está anotado con una taxonomía de doce categorías que cubre tema, formato, complejidad del contenido y calidad. Las etiquetas de la taxonomía son generadas por EAI-Distill-0.5b, un modelo ajustado de 0.5 mil millones de parámetros que logra un acuerdo entre anotadores dentro del 3% de Qwen2.5-32B-Instruct. Con nada más que filtros de estilo SQL, obtenemos conjuntos de datos web curados competitivos en matemáticas (-8.0% en relación con el estado del arte), código web (+14.3%), STEM (+24.5%) y medicina (+8.6%). Essential-Web v1.0 está disponible en HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0.
Las tareas agentivas, que requieren resolución de problemas en múltiples pasos con autonomía, uso de herramientas y razonamiento adaptativo, están volviéndose cada vez más centrales para el avance del PLN y la IA. Sin embargo, los datos de instrucción existentes carecen de interacción con herramientas, y los benchmarks agentivos actuales dependen de costosas anotaciones humanas, lo que limita su escalabilidad. Presentamos TaskCraft, un flujo de trabajo automatizado para generar tareas agentivas escalables en dificultad, multiherramienta y verificables, con trayectorias de ejecución. TaskCraft expande tareas atómicas utilizando extensiones basadas en profundidad y amplitud para crear desafíos estructural y jerárquicamente complejos. Los resultados empíricos muestran que estas tareas mejoran la optimización de prompts en el flujo de generación y refinan el ajuste supervisado de modelos base agentivos. Presentamos un conjunto de datos sintéticos a gran escala de aproximadamente 36,000 tareas con dificultad variable para apoyar futuras investigaciones sobre ajuste y evaluación de agentes.
Presentamos Autoregressive Retrieval Augmentation (AR-RAG), un paradigma novedoso que mejora la generación de imágenes al incorporar de manera autoregresiva recuperaciones de vecinos más cercanos a nivel de parche. A diferencia de métodos anteriores que realizan una única recuperación estática antes de la generación y condicionan toda la generación en imágenes de referencia fijas, AR-RAG realiza recuperaciones conscientes del contexto en cada paso de generación, utilizando parches generados previamente como consultas para recuperar e incorporar las referencias visuales más relevantes a nivel de parche, permitiendo que el modelo responda a las necesidades evolutivas de la generación mientras evita limitaciones (por ejemplo, copia excesiva, sesgo estilístico, etc.) prevalentes en métodos existentes. Para implementar AR-RAG, proponemos dos marcos paralelos: (1) Distribution-Augmentation in Decoding (DAiD), una estrategia de decodificación plug-and-use sin necesidad de entrenamiento que fusiona directamente la distribución de parches predichos por el modelo con la distribución de parches recuperados, y (2) Feature-Augmentation in Decoding (FAiD), un método de ajuste fino eficiente en parámetros que suaviza progresivamente las características de los parches recuperados mediante operaciones de convolución multi-escala y las aprovecha para mejorar el proceso de generación de imágenes. Validamos la efectividad de AR-RAG en benchmarks ampliamente adoptados, incluyendo Midjourney-30K, GenEval y DPG-Bench, demostrando mejoras significativas en el rendimiento sobre los modelos de generación de imágenes más avanzados.
Los métodos de correspondencia densa como DUSt3R regresan mapas de puntos por pares para la reconstrucción 3D. Sin embargo, la dependencia de la predicción por pares y la capacidad limitada de generalización restringen inherentemente la consistencia geométrica global. En este trabajo, presentamos Test3R, una técnica de aprendizaje en tiempo de prueba sorprendentemente simple que mejora significativamente la precisión geométrica. Utilizando tríos de imágenes (I_1, I_2, I_3), Test3R genera reconstrucciones a partir de los pares (I_1, I_2) y (I_1, I_3). La idea central es optimizar la red en tiempo de prueba mediante un objetivo auto-supervisado: maximizar la consistencia geométrica entre estas dos reconstrucciones con respecto a la imagen común I_1. Esto asegura que el modelo produzca salidas consistentes entre pares, independientemente de las entradas. Experimentos extensos demuestran que nuestra técnica supera significativamente a los métodos anteriores de última generación en las tareas de reconstrucción 3D y estimación de profundidad multi-vista. Además, es universalmente aplicable y casi sin costo, lo que facilita su aplicación a otros modelos y su implementación con un mínimo de sobrecarga de entrenamiento en tiempo de prueba y huella de parámetros. El código está disponible en https://github.com/nopQAQ/Test3R.
En este trabajo, investigamos la sinergia entre el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL) en el desarrollo de modelos de razonamiento robustos. Comenzamos curando los datos de entrenamiento para SFT mediante dos estrategias de escalado: incrementar el número de indicaciones (prompts) recopiladas y el número de respuestas generadas por indicación. Ambos enfoques producen mejoras notables en el rendimiento del razonamiento, siendo el escalado del número de indicaciones el que genera ganancias más sustanciales. Luego, exploramos las siguientes preguntas respecto a la sinergia entre SFT y RL: (i) ¿Un modelo SFT más fuerte conduce consistentemente a un mejor rendimiento final después de un entrenamiento RL a gran escala? (ii) ¿Cómo podemos determinar una temperatura de muestreo adecuada durante el entrenamiento RL para equilibrar efectivamente la exploración y la explotación dada una inicialización SFT? Nuestros hallazgos sugieren que (i) es cierto, siempre que se lleve a cabo un entrenamiento RL efectivo, particularmente cuando la temperatura de muestreo se elige cuidadosamente para mantener la entropía ajustada por temperatura alrededor de 0.3, un valor que logra un buen equilibrio entre exploración y explotación. Notablemente, la brecha de rendimiento entre los modelos SFT iniciales se reduce significativamente a lo largo del proceso RL. Aprovechando una base SFT sólida y las ideas sobre la interacción sinérgica entre SFT y RL, nuestro modelo AceReason-Nemotron-1.1 7B supera significativamente a AceReason-Nemotron-1.0 y alcanza un nuevo estado del arte entre los modelos de razonamiento basados en Qwen2.5-7B en benchmarks desafiantes de matemáticas y código, demostrando así la efectividad de nuestra receta de post-entrenamiento. Publicamos el modelo y los datos en: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B.
Con la rápida mejora en las capacidades generales de los LLM (Modelos de Lenguaje de Gran Escala), la personalización de los LLM, es decir, cómo construir sistemas de LLM que puedan generar respuestas o servicios personalizados adaptados a distintas personalidades de usuario, se ha convertido en un problema de investigación e ingeniería cada vez más importante. Sin embargo, a diferencia de los numerosos y desafiantes puntos de referencia que se están publicando para evaluar las capacidades generales/de razonamiento, la falta de puntos de referencia de alta calidad para evaluar la personalización de los LLM dificulta enormemente el avance en este campo. Para abordar esto, presentamos PersonaFeedback, un nuevo punto de referencia que evalúa directamente la capacidad de los LLM para proporcionar respuestas personalizadas dadas personalidades de usuario y consultas predefinidas. A diferencia de los puntos de referencia existentes que requieren que los modelos infieran personalidades de usuario implícitas a partir de interacciones históricas, PersonaFeedback desacopla la inferencia de personalidad de la personalización, centrándose en evaluar la capacidad del modelo para generar respuestas adaptadas a personalidades explícitas. PersonaFeedback consta de 8298 casos de prueba anotados por humanos, que se clasifican en niveles fáciles, medios y difíciles según la complejidad contextual de las personalidades de usuario y la dificultad para distinguir diferencias sutiles entre dos respuestas personalizadas. Realizamos evaluaciones exhaustivas en una amplia gama de modelos. Los resultados empíricos revelan que incluso los LLM de última generación que pueden resolver tareas complejas de razonamiento del mundo real podrían fallar en el nivel difícil de PersonaFeedback, donde incluso los evaluadores humanos podrían encontrar las distinciones desafiantes. Además, llevamos a cabo un análisis en profundidad de los modos de fallo en varios tipos de sistemas, demostrando que el marco actual de aumento de recuperación no debe verse como una solución de facto para las tareas de personalización. Todos los datos del punto de referencia, los protocolos de anotación y la canalización de evaluación estarán disponibles públicamente para facilitar futuras investigaciones sobre la personalización de los LLM.
En el campo del razonamiento multimodal de cadena de pensamiento (CoT, por sus siglas en inglés), los enfoques existentes dependen predominantemente del razonamiento en el espacio puramente lingüístico, lo que inherentemente sufre de sesgos lingüísticos y se limita principalmente a dominios como las matemáticas o las ciencias. Este enfoque estrecho restringe su capacidad para manejar tareas complejas de razonamiento visual que exigen una comprensión integral de los detalles de las imágenes. Para abordar estas limitaciones, este artículo presenta VGR, un novedoso modelo de lenguaje multimodal (MLLM) de razonamiento con capacidades mejoradas de percepción visual de grano fino. A diferencia de los MLLM tradicionales que responden preguntas o razonan únicamente en el espacio lingüístico, nuestro VGR primero detecta regiones relevantes que pueden ayudar a resolver problemas y luego proporciona respuestas precisas basadas en las regiones de la imagen reproducidas. Para lograr esto, hemos creado un conjunto de datos de ajuste fino supervisado (SFT) a gran escala llamado VGR-SFT, que contiene datos de razonamiento con una combinación de anclaje visual y deducción lingüística. La canalización de inferencia de VGR permite al modelo seleccionar cuadros delimitadores para referencia visual y se introduce una etapa de reproducción que integra las regiones correspondientes en el proceso de razonamiento, mejorando la comprensión multimodal. Los experimentos realizados en la línea base LLaVA-NeXT-7B muestran que VGR logra un rendimiento superior en puntos de referencia multimodales que requieren una comprensión detallada de las imágenes. En comparación con la línea base, VGR utiliza solo el 30\% del recuento de tokens de imagen, mientras que obtiene puntuaciones de +4.1 en MMStar, +7.1 en AI2D y una mejora de +12.9 en ChartQA.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables de generalización en tareas y lenguajes, revolucionando el procesamiento del lenguaje natural. Este artículo investiga la alineación de representaciones que emerge naturalmente en los LLMs, particularmente en las capas intermedias, y sus implicaciones para desentrañar información específica del lenguaje y agnóstica al mismo. Confirmamos empíricamente la existencia de esta alineación, analizamos su comportamiento en comparación con modelos de alineación diseñados explícitamente y demostramos su potencial para la manipulación específica del lenguaje sin degradación semántica. Basándonos en estos hallazgos, proponemos el Control de Lenguaje en Tiempo de Inferencia (ITLC, por sus siglas en inglés), un método novedoso que aprovecha la inyección latente para permitir un control lingüístico preciso entre idiomas y mitigar la confusión lingüística en los LLMs. Nuestros experimentos destacan las fuertes capacidades de control multilingüe del ITLC mientras se preserva la integridad semántica en los idiomas objetivo. Además, demostramos su eficacia para aliviar el problema de confusión lingüística entre idiomas, que persiste incluso en los LLMs de gran escala actuales, lo que conduce a una generación de lenguaje inconsistente. Este trabajo avanza nuestra comprensión de la alineación de representaciones en los LLMs e introduce una solución práctica para mejorar su rendimiento multilingüe.
La búsqueda de datos de instrucción diversos, complejos y a gran escala es crucial para alinear automáticamente los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Si bien existen métodos capaces de generar instrucciones sintéticas a gran escala, estos adolecen de fuentes de fundamentación limitadas, lo que resulta en una distribución estrecha, o dependen de extensiones triviales que no logran producir trayectorias significativas en términos de complejidad. Por el contrario, las instrucciones que benefician una alineación eficiente suelen estar diseñadas con conocimientos cognitivos y fundamentadas en casos de uso del mundo real. En este artículo, sintetizamos dichas instrucciones utilizando una fundamentación atribuida, que implica 1) un proceso de atribución de arriba hacia abajo que fundamenta un conjunto selecto de instrucciones reales en usuarios situados, y 2) un proceso de síntesis de abajo hacia arriba que aprovecha documentos web para primero generar una situación y luego una instrucción significativa. Este marco nos permite recolectar instrucciones diversas y complejas a gran escala, utilizando la amplia gama de documentos web. Específicamente, construimos un conjunto de datos de 1 millón de instrucciones, llamado SynthQuestions, y demostramos que los modelos entrenados en él logran un rendimiento líder en varios puntos de referencia comunes, con mejoras que escalan continuamente con más corpus web. Los datos, modelos y códigos estarán disponibles en https://github.com/Ignoramus0817/SynthQuestions.
Recientemente, el uso de modelos preentrenados de visión-lenguaje (VLMs) para construir modelos de visión-lenguaje-acción (VLA) ha surgido como un enfoque prometedor para el aprendizaje efectivo de la manipulación robótica. Sin embargo, pocos métodos incorporan señales 3D en los VLMs para la predicción de acciones, y no aprovechan completamente la estructura espacial inherente a los datos 3D, lo que resulta en una baja eficiencia de muestreo. En este artículo, presentamos BridgeVLA, un novedoso modelo VLA 3D que (1) proyecta entradas 3D en múltiples imágenes 2D, asegurando la alineación de la entrada con la arquitectura base del VLM, y (2) utiliza mapas de calor 2D para la predicción de acciones, unificando los espacios de entrada y salida dentro de un espacio de imagen 2D consistente. Además, proponemos un método de preentrenamiento escalable que equipa a la arquitectura base del VLM con la capacidad de predecir mapas de calor 2D antes del aprendizaje de políticas en tareas específicas. Experimentos extensos muestran que el método propuesto es capaz de aprender la manipulación 3D de manera eficiente y efectiva. BridgeVLA supera a los métodos de referencia más avanzados en tres benchmarks de simulación. En RLBench, mejora la tasa de éxito promedio del 81.4% al 88.2%. En COLOSSEUM, demuestra un rendimiento significativamente mejor en escenarios desafiantes de generalización, aumentando la tasa de éxito promedio del 56.7% al 64.0%. En GemBench, supera a todos los métodos de referencia en términos de tasa de éxito promedio. En experimentos con robots reales, BridgeVLA supera a un método de referencia de última generación en un 32% en promedio. Generaliza de manera robusta en múltiples escenarios fuera de distribución, incluyendo perturbaciones visuales e instrucciones no vistas. Notablemente, logra una tasa de éxito del 96.8% en más de 10 tareas con solo 3 trayectorias por tarea, destacando su extraordinaria eficiencia de muestreo. Sitio web del proyecto: https://bridgevla.github.io/
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han permitido el desarrollo de agentes de inteligencia artificial (IA) que exhiben comportamientos cada vez más similares a los humanos, incluyendo la planificación, la adaptación y la dinámica social en escenarios diversos, interactivos y de final abierto. Estos comportamientos no son únicamente el producto de las arquitecturas internas de los modelos subyacentes, sino que emergen de su integración en sistemas agentes que operan en contextos específicos, donde factores ambientales, señales sociales y retroalimentaciones de interacción moldean el comportamiento a lo largo del tiempo. Esta evolución requiere una nueva perspectiva científica: la Ciencia del Comportamiento de Agentes de IA. En lugar de centrarse únicamente en los mecanismos internos, esta perspectiva enfatiza la observación sistemática del comportamiento, el diseño de intervenciones para probar hipótesis y la interpretación guiada por teorías sobre cómo los agentes de IA actúan, se adaptan e interactúan con el tiempo. Sistematizamos un creciente cuerpo de investigación en entornos de interacción de agentes individuales, multiagentes y humano-agente, y además demostramos cómo esta perspectiva informa la IA responsable al tratar la equidad, la seguridad, la interpretabilidad, la rendición de cuentas y la privacidad como propiedades comportamentales. Al unificar hallazgos recientes y trazar direcciones futuras, posicionamos la Ciencia del Comportamiento de Agentes de IA como un complemento necesario a los enfoques tradicionales centrados en modelos, proporcionando herramientas esenciales para comprender, evaluar y gobernar el comportamiento en el mundo real de sistemas de IA cada vez más autónomos.
La evolución continua de los modelos de lenguaje ha llevado al desarrollo de arquitecturas a gran escala que demuestran un rendimiento excepcional en una amplia gama de tareas. Sin embargo, estos modelos conllevan demandas computacionales y energéticas significativas, así como posibles implicaciones en la privacidad. En este contexto, los Modelos de Lenguaje de Razonamiento Pequeño (SRLMs, por sus siglas en inglés) con aproximadamente 500 millones de parámetros presentan una alternativa convincente debido a su notable eficiencia computacional y rentabilidad, especialmente en entornos con recursos limitados. A pesar de estas ventajas, la capacidad limitada de los modelos de 500 millones de parámetros plantea desafíos en el manejo de tareas complejas, como el razonamiento matemático y la generación de código. Esta investigación explora diversas estrategias de entrenamiento, incluido el ajuste fino supervisado (SFT), la destilación de conocimiento (KD) y el aprendizaje por refuerzo (RL), así como sus implementaciones híbridas, para mejorar el rendimiento de los SRLMs de 500 millones de parámetros. Analizamos metodologías efectivas para reducir la brecha de rendimiento entre los SRLMs y los modelos más grandes y presentamos ideas sobre las canalizaciones de entrenamiento óptimas adaptadas a estas arquitecturas más pequeñas. A través de una extensa validación y análisis experimental, nuestro trabajo tiene como objetivo proporcionar recomendaciones prácticas para maximizar las capacidades de razonamiento de los modelos de 500 millones de parámetros.
El aprendizaje interactivo a partir de la observación y la retroalimentación lingüística es un área de estudio cada vez más explorada, impulsada por el surgimiento de agentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Aunque se han demostrado resultados empíricos impresionantes, hasta ahora falta un marco teórico sólido para estos problemas de decisión. En este artículo, formalizamos el problema de Aprendizaje a partir de Retroalimentación Lingüística (LLF, por sus siglas en inglés), establecemos supuestos suficientes para permitir el aprendizaje a pesar de recompensas latentes e introducimos la dimensión de elusión de transferencia como una medida de complejidad para caracterizar la dificultad de los problemas de LLF. Mostramos que la dimensión de elusión de transferencia captura la intuición de que la información en la retroalimentación altera la complejidad del aprendizaje en el problema de LLF. Demostramos casos en los que el aprendizaje a partir de retroalimentación lingüística rica puede ser exponencialmente más rápido que el aprendizaje a partir de recompensas. Desarrollamos un algoritmo sin arrepentimiento, llamado HELiX, que resuelve de manera probada los problemas de LLF mediante interacciones secuenciales, con garantías de rendimiento que escalan con la dimensión de elusión de transferencia del problema. A través de varios dominios empíricos, mostramos que HELiX funciona bien incluso cuando la repetición de solicitudes a LLMs no es confiable. Nuestras contribuciones marcan un primer paso hacia el diseño de algoritmos de aprendizaje interactivo fundamentados a partir de retroalimentación lingüística genérica.
¿Qué tan bien se desempeñan los sistemas de IA en la ingeniería de algoritmos para problemas de optimización complejos en dominios como la planificación de rutas de entrega de paquetes, la programación de tripulaciones, la planificación de producción en fábricas y el equilibrio de redes eléctricas? Presentamos ALE-Bench, un nuevo punto de referencia para evaluar sistemas de IA en concursos de programación algorítmica basados en puntuación. Basado en tareas reales de los AtCoder Heuristic Contests, ALE-Bench presenta problemas de optimización que son computacionalmente complejos y no admiten soluciones exactas conocidas. A diferencia de los puntos de referencia de codificación de corta duración y de aprobado/reprobado, ALE-Bench fomenta el refinamiento iterativo de soluciones en horizontes temporales prolongados. Nuestro marco de software admite arquitecturas de agentes interactivos que aprovechan la retroalimentación de pruebas de ejecución y visualizaciones. Nuestra evaluación de modelos de lenguaje de última generación (LLMs) reveló que, aunque muestran un alto rendimiento en problemas específicos, persiste una brecha notable en comparación con los humanos en términos de consistencia entre problemas y capacidades de resolución de problemas a largo plazo. Esto subraya la necesidad de este punto de referencia para impulsar futuros avances en IA.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se están integrando cada vez más en aplicaciones cotidianas. A medida que su influencia crece, comprender su toma de decisiones y su personalidad subyacente se vuelve esencial. En este trabajo, interpretamos la personalidad de los modelos utilizando nuestro conjunto de datos propuesto, el Supernova Event Dataset, un conjunto de datos novedoso que incluye artículos diversos que abarcan biografías, eventos históricos, noticias y descubrimientos científicos. Utilizamos este conjunto de datos para evaluar a los LLMs en la extracción y clasificación de eventos clave a partir de texto, un desafío subjetivo y complejo que requiere razonamiento sobre contextos de largo alcance y modelado de cadenas causales. Evaluamos modelos pequeños como Phi-4, Orca 2 y Qwen 2.5, y modelos grandes y más potentes como Claude 3.7, Gemini 2.5 y OpenAI o3, y proponemos un marco en el que otro LLM actúa como juez para inferir la personalidad de cada modelo en función de su selección y clasificación de eventos. Nuestro análisis muestra rasgos de personalidad distintivos: por ejemplo, Orca 2 demuestra un razonamiento emocional centrado en dinámicas interpersonales, mientras que Qwen 2.5 muestra un estilo más estratégico y analítico. Al analizar eventos de descubrimientos científicos, Claude Sonnet 3.7 enfatiza el encuadre conceptual, Gemini 2.5 Pro prioriza la validación empírica y o3 favorece el razonamiento causal paso a paso. Este análisis mejora la interpretabilidad de los modelos, haciéndolos más amigables para una amplia gama de aplicaciones diversas.
Las series temporales del mundo real suelen estar gobernadas por dinámicas no lineales complejas. Comprender estas dinámicas subyacentes es crucial para realizar predicciones futuras precisas. Si bien el aprendizaje profundo ha logrado un gran éxito en la predicción de series temporales, muchos enfoques existentes no modelan explícitamente las dinámicas. Para cerrar esta brecha, presentamos DeepEDM, un marco que integra el modelado de sistemas dinámicos no lineales con redes neuronales profundas. Inspirado en el modelado dinámico empírico (EDM) y basado en el teorema de Takens, DeepEDM presenta un modelo profundo novedoso que aprende un espacio latente a partir de incrustaciones con retardo temporal, y emplea regresión de kernel para aproximar las dinámicas subyacentes, al tiempo que aprovecha una implementación eficiente de atención softmax y permite la predicción precisa de pasos temporales futuros. Para evaluar nuestro método, realizamos experimentos exhaustivos con datos sintéticos de sistemas dinámicos no lineales, así como con series temporales del mundo real en diversos dominios. Nuestros resultados muestran que DeepEDM es robusto al ruido en la entrada y supera a los métodos más avanzados en precisión de predicción. Nuestro código está disponible en: https://abrarmajeedi.github.io/deep_edm.
Los modelos de lenguaje de gran escala que razonan en profundidad suelen realizar extensos procesos de razonamiento para mejorar su rendimiento, pero este razonamiento prolongado no siempre es deseable, ya que incurre en costos excesivos de inferencia con ganancias de rendimiento desproporcionadas. Controlar la longitud del razonamiento sin sacrificar el rendimiento es, por tanto, importante, pero sigue siendo un desafío, especialmente bajo presupuestos de pensamiento ajustados. Proponemos la guía de presupuesto, un método simple pero efectivo para dirigir el proceso de razonamiento de los modelos de lenguaje hacia un presupuesto objetivo sin necesidad de ajustes finos del modelo. Nuestro enfoque introduce un predictor ligero que modela una distribución Gamma sobre la longitud restante del pensamiento durante la generación del siguiente token. Esta señal se utiliza luego para guiar la generación de manera suave y a nivel de token, asegurando que el rastro de razonamiento general se ajuste al presupuesto de pensamiento especificado. La guía de presupuesto permite un control natural de la longitud del pensamiento, junto con mejoras significativas en la eficiencia de tokens en comparación con métodos de referencia en desafiantes benchmarks matemáticos. Por ejemplo, logra un aumento de hasta un 26% en precisión en el benchmark MATH-500 bajo presupuestos ajustados en comparación con métodos de referencia, mientras mantiene una precisión competitiva utilizando solo el 63% de los tokens de pensamiento empleados por el modelo de pensamiento completo. La guía de presupuesto también se generaliza a dominios de tareas más amplios y exhibe capacidades emergentes, como la estimación de la dificultad de las preguntas. El código fuente está disponible en: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
Dado que las capas de auto-atención en los Transformers son intrínsecamente invariantes a permutaciones, es necesario incorporar explícitamente codificaciones posicionales para permitir la comprensión espacial. Sin embargo, las tablas de búsqueda de tamaño fijo utilizadas en las codificaciones posicionales (PE) aprendibles tradicionales limitan la capacidad de extrapolación más allá de las longitudes de secuencia preentrenadas. Métodos diseñados por expertos, como ALiBi y RoPE, mitigan esta limitación, pero requieren modificaciones extensas para adaptarse a nuevas modalidades, lo que subraya desafíos fundamentales en adaptabilidad y escalabilidad. En este trabajo, presentamos SeqPE, un marco unificado y completamente aprendible de codificación posicional que representa cada índice de posición n-dimensional como una secuencia simbólica y emplea un codificador posicional secuencial ligero para aprender sus representaciones de manera end-to-end. Para regularizar el espacio de representación de SeqPE, introducimos dos objetivos complementarios: un objetivo contrastivo que alinea las distancias de las representaciones con una función de distancia posicional predefinida, y una pérdida de destilación de conocimiento que ancla las representaciones posicionales fuera de distribución a representaciones de un profesor dentro de distribución, mejorando aún más el rendimiento de extrapolación. Los experimentos en modelado de lenguaje, respuestas a preguntas de contexto largo y clasificación de imágenes 2D demuestran que SeqPE no solo supera a las líneas base fuertes en perplejidad, coincidencia exacta (EM) y precisión—especialmente en la extrapolación de longitud de contexto—sino que también permite una generalización fluida a entradas multidimensionales sin requerir rediseños arquitectónicos manuales. Publicamos nuestro código, datos y puntos de control en https://github.com/ghrua/seqpe.
El entrenamiento de grandes redes neuronales mediante retropropagación de extremo a extremo genera cuellos de botella significativos en la memoria, limitando el acceso a la investigación de vanguardia en IA. Proponemos DiffusionBlocks, un marco de entrenamiento novedoso que interpreta los bloques de la red neuronal como operaciones de eliminación de ruido en un proceso de difusión en tiempo continuo. Al dividir la red en bloques entrenables de manera independiente y optimizar las asignaciones de niveles de ruido basadas en una masa de probabilidad acumulada igual, nuestro enfoque logra una eficiencia de memoria significativa mientras mantiene un rendimiento competitivo en comparación con la retropropagación tradicional en tareas generativas. Los experimentos en generación de imágenes y modelado de lenguaje demuestran una reducción de memoria proporcional al número de bloques, logrando un rendimiento superior. DiffusionBlocks ofrece una vía prometedora para democratizar el acceso al entrenamiento de redes neuronales a gran escala con recursos computacionales limitados.
Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado nuevas posibilidades para el análisis preciso y eficiente de series temporales, pero trabajos previos a menudo requerían un ajuste fino intensivo y/o ignoraban las correlaciones entre series. En este trabajo, exploramos estrategias simples y flexibles basadas en prompts que permiten a los LLMs realizar pronósticos de series temporales sin necesidad de un reentrenamiento extenso o el uso de una arquitectura externa compleja. A través de la exploración de métodos de prompting especializados que aprovechan la descomposición de series temporales, la tokenización basada en parches y la ampliación de vecinos basada en similitudes, encontramos que es posible mejorar la calidad de los pronósticos de los LLMs manteniendo la simplicidad y requiriendo un preprocesamiento mínimo de los datos. Con este fin, proponemos nuestro propio método, PatchInstruct, que permite a los LLMs realizar predicciones precisas y efectivas.
Estudiamos la resumen multimodal para videos instructivos, cuyo objetivo es proporcionar a los usuarios una forma eficiente de aprender habilidades mediante instrucciones textuales y fotogramas clave del video. Observamos que los benchmarks existentes se centran en la resumen de videos a nivel semántico genérico y no son adecuados para ofrecer instrucciones ejecutables paso a paso e ilustraciones, ambos elementos cruciales para los videos instructivos. Proponemos un nuevo benchmark para la resumen de videos instructivos de interfaces de usuario (UI) con el fin de llenar este vacío. Recopilamos un conjunto de datos de 2,413 videos instructivos de UI, que abarcan más de 167 horas. Estos videos están anotados manualmente para la segmentación de video, resumen textual y resumen de video, lo que permite evaluaciones exhaustivas para una resumen de video concisa y ejecutable. Realizamos experimentos extensivos en nuestro conjunto de datos MS4UI recopilado, los cuales sugieren que los métodos de resumen multimodal más avanzados tienen dificultades en la resumen de videos de UI y destacan la importancia de nuevos métodos para la resumen de videos instructivos de UI.
En una era caracterizada por la proliferación de desinformación y noticias falsas en línea, es crucial capacitar a los lectores para que comprendan el contenido que están leyendo. Esfuerzos importantes en esta dirección se basan en la verificación manual o automática de hechos, lo cual puede ser desafiante para afirmaciones emergentes con información limitada. Dichos escenarios pueden abordarse evaluando la confiabilidad y el sesgo político de la fuente de la afirmación, es decir, caracterizando medios de comunicación completos en lugar de afirmaciones o artículos individuales. Esta es una dirección de investigación importante pero poco estudiada. Si bien trabajos previos han explorado contextos lingüísticos y sociales, no analizamos artículos individuales o información en redes sociales. En su lugar, proponemos una metodología novedosa que emula los criterios que utilizan los verificadores de hechos profesionales para evaluar la factualidad y el sesgo político de un medio de comunicación en su totalidad. Específicamente, diseñamos una variedad de indicaciones basadas en estos criterios y obtenemos respuestas de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), las cuales agregamos para hacer predicciones. Además de demostrar mejoras significativas sobre líneas base sólidas mediante experimentos extensos con múltiples LLMs, proporcionamos un análisis detallado de errores sobre el efecto de la popularidad y la región de los medios en el rendimiento del modelo. Asimismo, realizamos un estudio de ablación para resaltar los componentes clave de nuestro conjunto de datos que contribuyen a estas mejoras. Para facilitar investigaciones futuras, hemos publicado nuestro conjunto de datos y código en https://github.com/mbzuai-nlp/llm-media-profiling.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han tenido un impacto significativo en una amplia gama de campos, desde dominios generales hasta áreas especializadas. Sin embargo, estos avances también han aumentado considerablemente el potencial de que usuarios malintencionados exploten indicaciones (prompts) dañinas y de jailbreak para realizar ataques maliciosos. Aunque se han realizado muchos esfuerzos para prevenir indicaciones dañinas y de jailbreak, proteger los LLMs de este tipo de ataques maliciosos sigue siendo una tarea importante y desafiante. En este artículo, proponemos QGuard, un método de protección de seguridad simple pero efectivo, que utiliza el prompting de preguntas para bloquear indicaciones dañinas de manera zero-shot. Nuestro método puede defender los LLMs no solo de indicaciones dañinas basadas en texto, sino también de ataques con indicaciones dañinas multimodales. Además, al diversificar y modificar las preguntas de protección, nuestro enfoque se mantiene robusto frente a las últimas indicaciones dañinas sin necesidad de fine-tuning. Los resultados experimentales muestran que nuestro modelo tiene un rendimiento competitivo tanto en conjuntos de datos dañinos de solo texto como multimodales. Adicionalmente, al proporcionar un análisis del prompting de preguntas, permitimos un análisis de caja blanca de las entradas del usuario. Creemos que nuestro método ofrece ideas valiosas para los servicios de LLMs en el mundo real, mitigando los riesgos de seguridad asociados con indicaciones dañinas.
Si bien la rápida proliferación de cámaras portátiles ha generado preocupaciones significativas sobre la privacidad en los videos egocéntricos, trabajos anteriores han pasado por alto en gran medida las amenazas únicas a la privacidad que enfrenta el usuario de la cámara. Este trabajo investiga la pregunta central: ¿Cuánta información privada sobre el usuario de la cámara puede inferirse a partir de sus videos en primera persona? Presentamos EgoPrivacy, el primer benchmark a gran escala para la evaluación integral de riesgos de privacidad en visión egocéntrica. EgoPrivacy abarca tres tipos de privacidad (demográfica, individual y situacional), definiendo siete tareas que buscan recuperar información privada que va desde lo detallado (por ejemplo, la identidad del usuario) hasta lo general (por ejemplo, el grupo de edad). Para enfatizar aún más las amenazas a la privacidad inherentes a la visión egocéntrica, proponemos el Ataque Aumentado por Recuperación, una novedosa estrategia de ataque que aprovecha la recuperación ego-to-exo a partir de un conjunto externo de videos exocéntricos para aumentar la efectividad de los ataques a la privacidad demográfica. Se presenta una comparación exhaustiva de los diferentes ataques posibles bajo todos los modelos de amenaza, mostrando que la información privada del usuario es altamente susceptible a fugas. Por ejemplo, nuestros hallazgos indican que los modelos fundacionales pueden comprometer efectivamente la privacidad del usuario incluso en configuraciones zero-shot, recuperando atributos como identidad, escena, género y raza con una precisión del 70-80%. Nuestro código y datos están disponibles en https://github.com/williamium3000/ego-privacy.
Los modelos de lenguaje se entrenan principalmente con grandes cantidades de datos textuales provenientes de Internet, por lo que resulta cada vez más importante comprender esta fuente de datos. Los motores de búsqueda de coincidencia exacta permiten buscar en grandes corpus de texto —contando apariciones de cadenas y recuperando los documentos que las contienen—, sin embargo, el alto costo de almacenamiento dificulta su aplicación a datos de escala Internet. Presentamos Infini-gram mini, un sistema eficiente y escalable que permite hacer buscables corpus de texto de nivel petabyte. Basado en la estructura de datos FM-index (Ferragina y Manzini, 2000), que indexa y comprime texto simultáneamente, nuestro sistema crea índices con un tamaño de solo el 44% del corpus. Infini-gram mini mejora significativamente la mejor implementación existente de FM-index en términos de velocidad de indexación (18 veces) y uso de memoria tanto durante la indexación (reducción de 3.2 veces) como durante las consultas (hasta una cantidad insignificante). Indexamos 46 TB de texto de Internet en 50 días con un único nodo de CPU de 128 núcleos (o 19 horas si se utilizan 75 de estos nodos). Mostramos un caso de uso importante de Infini-gram mini en un análisis a gran escala de la contaminación de benchmarks. Descubrimos que varios benchmarks centrales de evaluación de modelos de lenguaje están fuertemente contaminados en los rastreos de Internet (hasta un 40% en SQuAD), lo que podría llevar a sobrestimar las capacidades de los modelos de lenguaje si se entrenan con dichos datos. Alojamos un boletín de contaminación de benchmarks para compartir la tasa de contaminación de muchos benchmarks centrales y contribuidos por la comunidad. También lanzamos una interfaz web y un punto final de API para atender consultas de búsqueda generales en los índices de Infini-gram mini.
El aprendizaje autorregulado (AAR) es crucial para los estudiantes universitarios que enfrentan mayores demandas académicas y mayor independencia. La insuficiencia de habilidades de AAR puede llevar a hábitos de estudio desorganizados, baja motivación y una gestión deficiente del tiempo, lo que socava la capacidad de los estudiantes para prosperar en entornos desafiantes. A través de un estudio formativo que involucró a 59 estudiantes universitarios, identificamos los principales desafíos que enfrentan los estudiantes en el desarrollo de habilidades de AAR, incluyendo dificultades con el establecimiento de metas, la gestión del tiempo y el aprendizaje reflexivo. Para abordar estos desafíos, presentamos SRLAgent, un sistema asistido por modelos de lenguaje grandes (LLM, por sus siglas en inglés) que fomenta las habilidades de AAR mediante la gamificación y el apoyo adaptativo de estos modelos. Basado en el marco de tres fases de AAR de Zimmerman, SRLAgent permite a los estudiantes participar en el establecimiento de metas, la ejecución de estrategias y la autorreflexión dentro de un entorno interactivo basado en juegos. El sistema ofrece retroalimentación en tiempo real y andamiaje impulsado por LLM para apoyar los esfuerzos de estudio independientes de los estudiantes. Evaluamos SRLAgent utilizando un diseño entre sujetos, comparándolo con un sistema de referencia (AAR sin características de Agent) y una condición tradicional de aprendizaje multimedia. Los resultados mostraron mejoras significativas en las habilidades de AAR dentro del grupo SRLAgent (p < .001, d de Cohen = 0.234) y un mayor compromiso en comparación con los sistemas de referencia. Este trabajo destaca el valor de integrar andamiaje de AAR y apoyo de IA en tiempo real dentro de entornos gamificados, ofreciendo implicaciones de diseño para tecnologías educativas que buscan promover un aprendizaje más profundo y el desarrollo de habilidades metacognitivas.
Si bien los modelos de lenguaje se utilizan cada vez más en la ciencia de materiales, los modelos típicos dependen de métodos de tokenización centrados en la frecuencia, desarrollados originalmente para el procesamiento del lenguaje natural. Sin embargo, estos métodos a menudo producen una fragmentación excesiva y una pérdida semántica, lo que impide mantener la integridad estructural y semántica de los conceptos materiales. Para abordar este problema, proponemos MATTER, un enfoque novedoso de tokenización que integra el conocimiento de materiales en la tokenización. Basado en MatDetector, entrenado en nuestra base de conocimientos de materiales, y un método de reordenación que prioriza los conceptos materiales en la fusión de tokens, MATTER mantiene la integridad estructural de los conceptos materiales identificados y evita la fragmentación durante la tokenización, asegurando que su significado semántico permanezca intacto. Los resultados experimentales demuestran que MATTER supera a los métodos de tokenización existentes, logrando una mejora promedio del 4% y del 2% en las tareas de generación y clasificación, respectivamente. Estos resultados subrayan la importancia del conocimiento del dominio para las estrategias de tokenización en el procesamiento de textos científicos. Nuestro código está disponible en https://github.com/yerimoh/MATTER.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen entrenarse mediante la predicción de la siguiente palabra (NWP, por sus siglas en inglés), lo que proporciona una fluidez superficial sólida, pero a menudo carece de apoyo para un razonamiento robusto. Proponemos BOttlenecked next Word exploration (BOW), un novedoso marco de aprendizaje por refuerzo (RL) que replantea la NWP al introducir un cuello de botella de razonamiento, donde un modelo de política genera primero una ruta de razonamiento en lugar de predecir directamente el siguiente token, tras lo cual un modelo juez congelado predice la distribución del siguiente token basándose únicamente en esta ruta de razonamiento. Entrenamos el modelo de política utilizando GRPO con recompensas que cuantifican cuán efectivamente la ruta de razonamiento facilita la recuperación de la siguiente palabra. En comparación con otras líneas base de preentrenamiento continuo, demostramos que BOW mejora tanto las capacidades generales de razonamiento como las de predicción de la siguiente palabra del modelo base, evaluadas en varios puntos de referencia. Nuestros hallazgos muestran que BOW puede servir como una alternativa efectiva y escalable a la NWP convencional.
La predicción de resultados relacionados con la mortalidad a partir de imágenes ofrece la perspectiva de un cribado de salud accesible, no invasivo y escalable. Presentamos un método que aprovecha modelos base de transformadores de visión preentrenados para estimar la esperanza de vida restante a partir de imágenes faciales y de cuerpo completo, junto con una cuantificación robusta de la incertidumbre. Demostramos que la incertidumbre predictiva varía sistemáticamente con la verdadera esperanza de vida restante, y que esta incertidumbre puede modelarse eficazmente aprendiendo una distribución gaussiana para cada muestra. Nuestro enfoque alcanza un error absoluto medio (MAE) de última generación de 7.48 años en un conjunto de datos establecido, y mejora aún más a 4.79 y 5.07 años de MAE en dos nuevos conjuntos de datos de mayor calidad, curados y publicados en este trabajo. Es importante destacar que nuestros modelos proporcionan estimaciones de incertidumbre bien calibradas, como lo demuestra un error de calibración esperado segmentado de 0.62 años. Aunque no están destinados para su implementación clínica, estos resultados resaltan el potencial de extraer señales médicamente relevantes a partir de imágenes. Ponemos a disposición todo el código y los conjuntos de datos para facilitar investigaciones futuras.
Presentamos y evaluamos un conjunto de indicaciones estructuradas de flujo de trabajo como prueba de concepto (PoC), diseñadas para elicitar un razonamiento jerárquico similar al humano mientras guían a los Modelos de Lenguaje de Gran Escala (LLMs) en el análisis semántico y lingüístico de alto nivel de manuscritos académicos. Las indicaciones se enfocan en dos tareas analíticas no triviales: identificar afirmaciones no sustentadas en resúmenes (integridad informativa) y señalar referencias pronominales ambiguas (claridad lingüística). Realizamos una evaluación sistemática y múltiple en dos modelos de vanguardia (Gemini Pro 2.5 Pro y ChatGPT Plus o3) bajo diversas condiciones de contexto. Nuestros resultados para la tarea de integridad informativa revelan una divergencia significativa en el rendimiento de los modelos: mientras ambos identificaron correctamente un núcleo no sustentado de una frase nominal (95% de éxito), ChatGPT falló consistentemente (0% de éxito) en identificar un modificador adjetival no sustentado que Gemini señaló correctamente (95% de éxito), lo que plantea una pregunta sobre la posible influencia del rol sintáctico del objetivo. Para la tarea de análisis lingüístico, ambos modelos se desempeñaron bien (80-90% de éxito) con el contexto completo del manuscrito. Sin embargo, en un escenario de solo resumen, ChatGPT logró una tasa de éxito perfecta (100%), mientras que el rendimiento de Gemini se vio sustancialmente degradado. Nuestros hallazgos sugieren que las indicaciones estructuradas son una metodología viable para el análisis textual complejo, pero muestran que el rendimiento de las indicaciones puede depender en gran medida de la interacción entre el modelo, el tipo de tarea y el contexto, destacando la necesidad de pruebas rigurosas y específicas para cada modelo.
El trabajo existente en la generación automática de música se ha centrado principalmente en sistemas de extremo a extremo que producen composiciones completas o continuaciones. Sin embargo, dado que la composición musical es típicamente un proceso iterativo, estos sistemas dificultan la interacción bidireccional entre el humano y la máquina, que es esencial para la creatividad asistida por computadora. En este estudio, abordamos la tarea de relleno musical simbólico personalizable, de múltiples pistas, de contexto largo y controlable para mejorar el proceso de composición asistida por computadora. Presentamos MIDI-RWKV, un modelo novedoso basado en la arquitectura lineal RWKV-7, para permitir una cocreación musical eficiente y coherente en dispositivos de borde. También demostramos que MIDI-RWKV admite un método efectivo de ajuste fino de su estado inicial para la personalización en regímenes de muy baja muestra. Evaluamos MIDI-RWKV y su ajuste de estado en varias métricas cuantitativas y cualitativas, y publicamos los pesos del modelo y el código en https://github.com/christianazinn/MIDI-RWKV.
El lenguaje evoluciona con el tiempo, incluso en el ámbito del discurso de odio, que cambia rápidamente siguiendo dinámicas sociales y transformaciones culturales. Si bien la investigación en PLN ha estudiado el impacto de la evolución del lenguaje en el entrenamiento de modelos y ha propuesto varias soluciones al respecto, su impacto en la evaluación comparativa de modelos sigue siendo poco explorado. Sin embargo, los puntos de referencia en discurso de odio desempeñan un papel crucial para garantizar la seguridad de los modelos. En este artículo, evaluamos empíricamente la robustez de 20 modelos de lenguaje en dos experimentos de discurso de odio en evolución, y demostramos la desalineación temporal entre evaluaciones estáticas y sensibles al tiempo. Nuestros hallazgos abogan por puntos de referencia lingüísticos sensibles al tiempo para evaluar correcta y confiablemente los modelos de lenguaje en el ámbito del discurso de odio.