Artículos de investigación en IA seleccionados diariamente con traducciones
El Modelo de Razonamiento Jerárquico (HRM, por sus siglas en inglés) es un enfoque novedoso que utiliza dos pequeñas redes neuronales que operan recursivamente a diferentes frecuencias. Este método, inspirado en la biología, supera a los modelos de lenguaje de gran escala (LLMs) en tareas complejas como Sudoku, Laberintos y ARC-AGI, a pesar de estar entrenado con modelos pequeños (27 millones de parámetros) y con un conjunto de datos reducido (alrededor de 1000 ejemplos). El HRM muestra un gran potencial para resolver problemas complejos con redes pequeñas, aunque aún no se comprende completamente y podría ser subóptimo. Proponemos el Modelo Recursivo Minúsculo (TRM), un enfoque de razonamiento recursivo mucho más simple que logra una generalización significativamente mayor que el HRM, utilizando una única red diminuta de solo 2 capas. Con solo 7 millones de parámetros, el TRM alcanza un 45% de precisión en ARC-AGI-1 y un 8% en ARC-AGI-2, superando a la mayoría de los LLMs (por ejemplo, Deepseek R1, o3-mini, Gemini 2.5 Pro) con menos del 0.01% de los parámetros.
El aprendizaje por refuerzo basado en resultados ha avanzado el razonamiento en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), pero los enfoques predominantes que utilizan herramientas entrenan una única política monolítica que intercala pensamientos y llamadas a herramientas bajo un contexto completo; esto escala de manera deficiente con horizontes largos y herramientas diversas y generaliza débilmente a nuevos escenarios. Los sistemas agentes ofrecen una alternativa prometedora al descomponer el trabajo en módulos especializados, aunque la mayoría sigue siendo libre de entrenamiento o depende de entrenamiento fuera de línea desacoplado de la dinámica en vivo de la interacción de múltiples turnos. Presentamos AgentFlow, un marco agente entrenable en el flujo que coordina cuatro módulos (planificador, ejecutor, verificador, generador) a través de una memoria en evolución y optimiza directamente su planificador dentro del bucle de múltiples turnos. Para entrenar en política en entornos en vivo, proponemos la Optimización de Política Refinada Basada en Grupos de Flujo (Flow-GRPO, por sus siglas en inglés), que aborda la asignación de crédito de recompensas escasas en horizontes largos al convertir la optimización de múltiples turnos en una secuencia de actualizaciones de política de un solo turno manejables. Transmite un único resultado verificable a nivel de trayectoria a cada turno para alinear las decisiones locales del planificador con el éxito global y estabiliza el aprendizaje con ventajas normalizadas por grupo. En diez puntos de referencia, AgentFlow con un núcleo de 7B supera a los mejores modelos de referencia con ganancias promedio de precisión del 14.9% en búsqueda, 14.0% en tareas agentes, 14.5% en matemáticas y 4.1% en tareas científicas, incluso superando a modelos propietarios más grandes como GPT-4o. Análisis adicionales confirman los beneficios de la optimización en el flujo, mostrando una planificación mejorada, una mayor confiabilidad en las llamadas a herramientas y un escalado positivo con el tamaño del modelo y los turnos de razonamiento.
El razonamiento integrado con herramientas ha surgido como un enfoque clave para habilitar aplicaciones agentivas. Entre estas, los Agentes DeepResearch han ganado una atención significativa por su fuerte desempeño en tareas complejas y abiertas de búsqueda de información. Presentamos Fathom-DeepResearch, un sistema agentivo compuesto por dos modelos especializados. El primero es Fathom-Search-4B, un modelo DeepSearch entrenado a partir de Qwen3-4B y optimizado para investigaciones basadas en evidencia mediante búsquedas web en vivo y consultas específicas en páginas web. Su entrenamiento combina tres avances: (i) DUETQA, un conjunto de datos de 5K muestras generado mediante autojuego multiagente que impone una dependencia estricta de búsqueda web y un anclaje heterogéneo de fuentes; (ii) RAPO, una extensión de GRPO sin sobrecarga que estabiliza el Aprendizaje por Refuerzo multi-turno con Recompensas Verificables mediante poda curricular, escalado de ventajas consciente de recompensas y búferes de repetición por prompt; y (iii) una recompensa a nivel de paso direccionable que clasifica cada llamada a herramienta por comportamiento cognitivo y utilidad marginal, permitiendo un control explícito sobre la amplitud, profundidad y horizonte de la trayectoria de búsqueda. Estas mejoras permiten una extensión confiable de las llamadas a herramientas más allá de 20 llamadas cuando es necesario. El segundo es Fathom-Synthesizer-4B, entrenado a partir de Qwen3-4B, que convierte trazas de DeepSearch multi-turno en Informes DeepResearch estructurados y densos en citas para una síntesis exhaustiva. Evaluado en benchmarks de DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) y DeepResearch-Bench, el sistema logra un rendimiento de vanguardia en la categoría de pesos abiertos mientras demuestra una fuerte generalización a diversas tareas de razonamiento, incluyendo HLE, AIME-25, GPQA-Diamond y MedQA.
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) han surgido recientemente como un marco poderoso para mejorar las capacidades de razonamiento de los modelos de razonamiento a gran escala (LRMs), particularmente en el contexto del escalado en tiempo de prueba (TTS). Sin embargo, su potencial para supervisar LRMs en dominios de razonamiento tabular sigue siendo poco explorado. A través de análisis empíricos detallados, identificamos que los PRMs existentes, aunque ampliamente adoptados para supervisar pasos de razonamiento basados únicamente en texto, tienen dificultades con operaciones específicas de tablas, como la recuperación de sub-tablas y la interacción con esquemas, lo que conduce a cuellos de botella críticos en el rendimiento. Para abordar esta limitación, proponemos TaTToo, un novedoso marco PRM basado en tablas que (i) razona explícitamente sobre pasos de razonamiento tabular y (ii) integra verificación basada en herramientas para proporcionar una supervisión de recompensa precisa. Concretamente, primero diseñamos una canalización escalable de curación de datos que construye más de 60k anotaciones de alta calidad a nivel de paso, integrando racionales de verificación de tablas con ejecuciones basadas en herramientas. Sobre la base de los datos recopilados, entrenamos TaTToo con un paradigma de dos etapas: ajuste fino supervisado de arranque en frío para capturar patrones de razonamiento con uso de herramientas, seguido de aprendizaje por refuerzo con modelado de recompensa basado en herramientas para alinear nuestro modelo con la verificación basada en tablas. Proporcionamos una evaluación exhaustiva de la mejora de la política inducida por nuestro PRM recién diseñado. En 5 desafiantes puntos de referencia de razonamiento tabular que cubren razonamiento numérico, verificación de hechos y análisis de datos, TaTToo mejora los LRMs de política descendente en un 30.9% en la inferencia, supera a fuertes líneas base de PRM como Qwen-2.5-Math-PRM-72B con solo 8B parámetros y demuestra una fuerte generalización en diversas estrategias de TTS.
Los modelos de lenguaje autoregresivos (AR) de gran escala (LLMs, por sus siglas en inglés) han logrado un rendimiento notable en una amplia gama de tareas de procesamiento de lenguaje natural, aunque su decodificación secuencial inherente limita la eficiencia de la inferencia. En este trabajo, proponemos Fast-dLLM v2, un modelo de lenguaje basado en difusión por bloques (dLLM) cuidadosamente diseñado que adapta eficientemente modelos AR preentrenados en dLLMs para la generación paralela de texto, requiriendo solo aproximadamente 1B de tokens de ajuste fino. Esto representa una reducción de 500x en los datos de entrenamiento en comparación con LLMs de difusión de atención completa como Dream (580B tokens), mientras se preserva el rendimiento del modelo original. Nuestro enfoque introduce una novedosa receta de entrenamiento que combina un mecanismo de difusión por bloques con una máscara de atención complementaria, permitiendo el modelado bidireccional de contexto por bloques sin sacrificar los objetivos de entrenamiento AR. Para acelerar aún más la decodificación, diseñamos un mecanismo de almacenamiento jerárquico: un caché a nivel de bloque que almacena representaciones de contexto histórico entre bloques, y un caché a nivel de sub-bloque que permite la generación paralela eficiente dentro de bloques parcialmente decodificados. Junto con nuestra canalización de decodificación paralela, Fast-dLLM v2 logra una aceleración de hasta 2.5x en comparación con la decodificación AR estándar sin comprometer la calidad de la generación. Experimentos extensos en diversos benchmarks demuestran que Fast-dLLM v2 iguala o supera a las líneas base AR en precisión, al tiempo que ofrece una eficiencia de vanguardia entre los dLLMs, marcando un paso significativo hacia la implementación práctica de LLMs rápidos y precisos. El código y el modelo se publicarán públicamente.
Los modelos de lenguaje basados en difusión prometen capacidades de contexto bidireccional y relleno que los codificadores autorregresivos no poseen, aunque los sistemas prácticos siguen siendo pesados. Presentamos CoDA, un codificador de difusión de 1.700 millones de parámetros entrenado en TPU con una canalización de entrenamiento completamente de código abierto. CoDA combina un preentrenamiento de difusión a gran escala con un entrenamiento intermedio centrado en código y ajuste por instrucciones, lo que permite un muestreo guiado por confianza que mantiene la latencia de inferencia competitiva. En Humaneval, MBPP y EvalPlus, CoDA-1.7B-Instruct iguala o supera a los modelos de difusión de hasta 7.000 millones de parámetros. Nuestra publicación incluye puntos de control del modelo, herramientas de evaluación y canalizaciones de entrenamiento en TPU para acelerar la investigación en asistentes de codificación ligeros basados en difusión.
Los modelos no autorregresivos (NAR) basados en difusión y flujo han mostrado un gran potencial en el modelado de lenguaje a gran escala; sin embargo, su aplicación en el reconocimiento automático del habla (ASR, por sus siglas en inglés) sigue siendo en gran medida inexplorada. Proponemos Drax, un marco de emparejamiento de flujo discreto para ASR que permite una decodificación paralela eficiente. Para alinear mejor el entrenamiento con la inferencia, construimos una trayectoria de probabilidad condicionada por audio que guía al modelo a través de trayectorias que se asemejan a errores intermedios probables durante la inferencia, en lugar de transiciones directas de ruido aleatorio a objetivos. Nuestro análisis teórico vincula la brecha de generalización con las divergencias entre las ocupaciones de entrenamiento e inferencia, controladas por errores de velocidad acumulados, lo que motiva nuestra elección de diseño. La evaluación empírica demuestra que nuestro enfoque alcanza una precisión de reconocimiento comparable con los modelos de habla más avanzados, al mismo tiempo que ofrece mejores compensaciones entre precisión y eficiencia, destacando el emparejamiento de flujo discreto como una dirección prometedora para avanzar en el ASR NAR.
Los modelos de razonamiento mejoran el rendimiento al abordar problemas de manera paso a paso, descomponiéndolos en subproblemas y explorando cadenas largas de pensamiento antes de producir una respuesta. Sin embargo, aplicar un razonamiento extendido a cada paso introduce una redundancia considerable, ya que los subproblemas varían ampliamente en dificultad y complejidad: un pequeño número de pasos clave son genuinamente desafiantes y decisivos para la respuesta final, mientras que muchos otros solo implican revisiones directas o cálculos simples. Por lo tanto, una idea natural es dotar a los modelos de razonamiento con la capacidad de responder de manera adaptativa a esta variación, en lugar de tratar todos los pasos con el mismo nivel de elaboración. Con este fin, proponemos MixReasoning, un marco que ajusta dinámicamente la profundidad del razonamiento dentro de una sola respuesta. La cadena de pensamiento resultante se convierte entonces en una mezcla de razonamiento detallado en pasos difíciles e inferencia concisa en los más simples. Los experimentos en GSM8K, MATH-500 y AIME muestran que MixReasoning reduce la longitud del razonamiento y mejora sustancialmente la eficiencia sin comprometer la precisión.
La capacidad de razonamiento es fundamental para que los Modelos de Lenguaje de Gran Escala (LLMs) resuelvan tareas complejas, sin embargo, lograr un razonamiento confiable y escalable sigue siendo un desafío. Si bien el enfoque de Cadena de Pensamiento (Chain-of-Thought, CoT) se ha convertido en un método predominante, los enfoques existentes suelen adolecer de generación descontrolada, calidad insuficiente y diversidad limitada en las rutas de razonamiento. Esfuerzos recientes aprovechan el código para mejorar CoT al fundamentar el razonamiento en pasos ejecutables, pero estos métodos suelen estar restringidos a problemas matemáticos predefinidos, lo que limita su escalabilidad y generalización. En este trabajo, proponemos Caco (Code-Assisted Chain-of-ThOught), un marco novedoso que automatiza la síntesis de datos de razonamiento instrucción-CoT de alta calidad, verificables y diversos mediante aumentación basada en código. A diferencia de trabajos previos, Caco primero ajusta un generador de CoT basado en código sobre soluciones matemáticas y de programación en un formato de código unificado, luego escala la generación de datos a una gran cantidad de trazas de razonamiento diversas. De manera crucial, introducimos validación automatizada mediante ejecución de código y filtrado basado en reglas para garantizar corrección lógica y diversidad estructural, seguido de la ingeniería inversa de las salidas filtradas en instrucciones de lenguaje natural y CoTs lingüísticos para enriquecer la adaptabilidad a tareas. Este proceso de ciclo cerrado permite la síntesis completamente automatizada y escalable de datos de razonamiento con ejecutabilidad garantizada. Experimentos en nuestro conjunto de datos Caco-1.3M demuestran que los modelos entrenados con Caco logran un rendimiento competitivo en benchmarks de razonamiento matemático, superando a las líneas base sólidas existentes. Un análisis adicional revela que la verificación anclada en código y la diversidad de instrucciones de Caco contribuyen a una generalización superior en tareas no vistas. Nuestro trabajo establece un paradigma para construir sistemas de razonamiento autosostenibles y confiables sin intervención humana.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en tareas de texto a SQL de un solo turno, pero las aplicaciones de bases de datos del mundo real requieren predominantemente interacciones de múltiples turnos para manejar consultas ambiguas, errores de ejecución y requisitos de usuario en evolución. Los puntos de referencia existentes para interacciones de múltiples turnos se quedan cortos al tratar los historiales de conversación como contexto estático o limitar la evaluación a operaciones de solo lectura, sin reflejar los desafíos de los asistentes de bases de datos de nivel de producción. Presentamos BIRD-INTERACT, un punto de referencia que restaura este realismo mediante: (1) un entorno de interacción completo que acopla cada base de datos con una base de conocimiento jerárquica, archivos de metadatos y un simulador de usuario impulsado por funciones, permitiendo que los modelos soliciten aclaraciones, recuperen conocimiento y se recuperen de errores sin supervisión humana; (2) dos configuraciones de evaluación que consisten en un protocolo conversacional predefinido (c-Interact) y un entorno agéntico de final abierto (a-Interact) donde los modelos deciden autónomamente cuándo consultar al simulador de usuario o explorar el entorno; (3) un conjunto de tareas desafiantes que cubren todo el espectro CRUD para casos de uso de inteligencia empresarial y operativos, protegidos por casos de prueba ejecutables. Cada tarea incluye subtareas ambiguas y de seguimiento que requieren interacción dinámica. El conjunto comprende BIRD-INTERACT-FULL (600 tareas, hasta 11,796 interacciones) para una evaluación integral del rendimiento, y BIRD-INTERACT-LITE (300 tareas con bases de datos simplificadas) para un análisis detallado del comportamiento y un desarrollo rápido de métodos. Nuestros resultados empíricos destacan la dificultad de BIRD-INTERACT: GPT-5 completa solo el 8.67% de las tareas en c-Interact y el 17.00% en a-Interact. El análisis mediante injerto de memoria y Escalado en Tiempo de Prueba de Interacción valida la importancia de una interacción efectiva para tareas complejas y dinámicas de texto a SQL.
La generación de formas 4D condicionada por video tiene como objetivo recuperar la geometría 3D variable en el tiempo y la apariencia consistente con la vista directamente a partir de un video de entrada. En este trabajo, presentamos un marco nativo de generación de video a formas 4D que sintetiza una única representación dinámica 3D de extremo a extremo a partir del video. Nuestro marco introduce tres componentes clave basados en modelos 3D preentrenados a gran escala: (i) una atención temporal que condiciona la generación en todos los fotogramas mientras produce una representación dinámica indexada en el tiempo; (ii) un muestreo de puntos consciente del tiempo y un anclaje latente 4D que promueven una geometría y textura temporalmente consistentes; y (iii) el compartimiento de ruido entre fotogramas para mejorar la estabilidad temporal. Nuestro método captura con precisión el movimiento no rígido, los cambios de volumen e incluso las transiciones topológicas sin necesidad de optimización por fotograma. En diversos videos del mundo real, nuestro método mejora la robustez y la fidelidad perceptual y reduce los modos de fallo en comparación con los métodos de referencia.
Los métodos recientes de posentrenamiento para Modelos de Lenguaje de Gran Escala (LLM) dependen de mecanismos de recorte a nivel de tokens durante el Aprendizaje por Refuerzo (RL). Sin embargo, identificamos un defecto fundamental en este paradigma de RL Supervisado por Resultados (OSRL): las proporciones de Muestreo de Importancia (IS) de los tokens con ventaja positiva están desajustadas, lo que lleva a una ponderación desequilibrada entre tokens positivos y negativos. Este desajuste suprime la actualización de tokens de baja probabilidad mientras amplifica excesivamente aquellos que ya tienen una alta probabilidad. Para abordar esto, proponemos Optimización de Políticas con Muestreo de Importancia Asimétrico (ASPO), que utiliza una estrategia simple pero efectiva que invierte las proporciones de IS de los tokens con ventaja positiva, alineando su dirección de actualización con la dinámica de aprendizaje de los tokens negativos. ASPO incorpora además un mecanismo de doble recorte suave para estabilizar actualizaciones extremas mientras mantiene el flujo de gradientes. Experimentos exhaustivos en benchmarks de codificación y razonamiento matemático demuestran que ASPO mitiga significativamente la convergencia prematura, mejora la estabilidad del entrenamiento y aumenta el rendimiento final en comparación con líneas base fuertes basadas en GRPO. Nuestro análisis proporciona nuevas perspectivas sobre el papel de la ponderación a nivel de tokens en OSRL y destaca la importancia crítica de corregir el IS en el RL de LLM. El código y los modelos de ASPO están disponibles en https://github.com/wizard-III/Archer2.0.
La promoción de artículos académicos se ha convertido en un medio importante para aumentar la visibilidad de la investigación. Sin embargo, los métodos automatizados existentes enfrentan limitaciones en la narrativa, calidad estética insuficiente y capacidad de autoajuste restringida, lo que dificulta lograr una difusión eficiente y atractiva. En el núcleo de estos desafíos se encuentra un principio simple: no es posible mejorar algo cuando no se puede evaluar correctamente. Para abordar esto, presentamos EvoPresent, un marco de agente de auto-mejora que unifica narrativas coherentes, diseños conscientes de la estética y presentaciones realistas a través de personajes virtuales. El elemento central de EvoPresent es PresAesth, un modelo estético de aprendizaje por refuerzo multitarea (RL) que proporciona puntuaciones estéticas confiables, ajuste de defectos y retroalimentación comparativa, permitiendo una auto-mejora iterativa incluso con datos limitados de entrenamiento estético. Para evaluar sistemáticamente los métodos, introducimos EvoPresent Benchmark, un punto de referencia integral que comprende: Calidad de Generación de Presentaciones, basado en 650 artículos de conferencias de IA de primer nivel con recursos multimodales (diapositivas, videos y guiones) para evaluar tanto el contenido como el diseño; y Conciencia Estética, que consiste en 2,000 pares de diapositivas con niveles estéticos variables, apoyando el entrenamiento y evaluación conjunta en puntuación, ajuste de defectos y comparación. Nuestros hallazgos destacan que (i) La retroalimentación de alta calidad es esencial para la auto-mejora del agente, mientras que la capacidad inicial por sí sola no garantiza una autocorrección efectiva. (ii) Las pipelines de generación automatizada exhiben un equilibrio entre el diseño visual y la construcción de contenido. (iii) El entrenamiento multitarea RL muestra una mayor generalización en tareas de conciencia estética.
Los avances recientes en modelos generativos médicos están limitados por escenarios específicos de modalidad que dificultan la integración de evidencia complementaria proveniente de imágenes, patología y notas clínicas. Esta fragmentación restringe su evolución hacia modelos fundacionales capaces de aprender y razonar a través de todo el espectro de datos biomédicos. Proponemos MeDiM, el primer modelo de difusión discreta médica que aprende distribuciones compartidas entre modalidades sin componentes específicos de modalidad. MeDiM unifica múltiples tareas generativas: traducción entre imágenes y texto, y producción conjunta de pares imagen-informe a través de dominios en respuesta a indicaciones. Basado en un marco de difusión discreta, MeDiM conecta representaciones de visión y lenguaje a través de un espacio probabilístico compartido. Para habilitar una generación médica unificada y flexible, empleamos un modelo de lenguaje multimodal de gran escala (MLLM) como columna vertebral de la difusión, aprovechando su conocimiento previo y razonamiento multimodal. Se introducen dos diseños clave: (1) eliminar la máscara de atención causal para un contexto bidireccional, y (2) inyectar incrustaciones continuas de pasos temporales para la conciencia de la difusión. Los experimentos demuestran una generación médica de alta fidelidad (FID 16.60 en MIMIC-CXR y FID 24.19 en PathGen) y una generación precisa de informes (METEOR 0.2650 y 0.2580). Los pares imagen-informe generados conjuntamente mejoran aún más el rendimiento en tareas posteriores (+6.43% BLEU-1, +18.57% BLEU-2, +31.58% BLEU-3, +4.80% METEOR), mostrando que MeDiM respalda salidas multimodales coherentes y clínicamente fundamentadas.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado recientemente avances notables en radiología al integrar la percepción visual con la comprensión del lenguaje natural. Sin embargo, a menudo generan descripciones clínicamente no respaldadas, conocidas como alucinaciones médicas, lo que representa riesgos graves en aplicaciones médicas que exigen precisión y resultados fundamentados en imágenes. A través de un análisis empírico, encontramos que las alucinaciones inducidas por instrucciones siguen siendo prevalentes en los MLLMs de radiología, en gran parte debido a una sobresensibilidad a las secciones clínicas. Para abordar este problema, presentamos Clinical Contrastive Decoding (CCD), un marco de inferencia sin entrenamiento y sin recuperación que integra señales clínicas estructuradas de modelos expertos en radiología específicos para la tarea. CCD introduce un mecanismo de contraste de dos etapas para refinar los logits a nivel de token durante la generación, mejorando así la fidelidad clínica sin modificar el MLLM base. Los experimentos en tres conjuntos de datos y múltiples modelos demuestran que CCD mejora consistentemente el rendimiento general en la generación de informes radiológicos (RRG, por sus siglas en inglés). En el conjunto de datos MIMIC-CXR, se obtiene una mejora de hasta un 17% en RadGraph-F1 cuando se aplica a modelos RRG de vanguardia. Nuestro enfoque proporciona una solución ligera y generalizable para mitigar las alucinaciones médicas, conectando eficazmente los modelos expertos y los MLLMs en radiología.
Presentamos OneFlow, el primer modelo multimodal no autorregresivo que permite la generación concurrente y de longitud variable con modalidades mixtas. A diferencia de los modelos autorregresivos que imponen un orden causal rígido entre la generación de texto e imágenes, OneFlow combina un Edit Flow basado en inserciones para tokens de texto discretos con Flow Matching para latentes de imagen. OneFlow permite la síntesis concurrente de texto e imágenes mediante un muestreo jerárquico que prioriza el contenido sobre la gramática. A través de experimentos controlados en tamaños de modelo que van desde 1B hasta 8B, demostramos que OneFlow supera a los modelos autorregresivos de referencia tanto en tareas de generación como de comprensión, utilizando hasta un 50% menos de FLOPs de entrenamiento. OneFlow supera tanto a enfoques autorregresivos como basados en difusión, al tiempo que desbloquea nuevas capacidades para la generación concurrente, el refinamiento iterativo y la generación con un razonamiento similar al natural.
Un componente clave del razonamiento en contexto es la capacidad de los modelos de lenguaje (LMs) para vincular entidades y recuperarlas posteriormente. Por ejemplo, un LM podría representar "Ann ama el pastel" vinculando "Ann" con "pastel", lo que le permitiría recuperar "Ann" cuando se le pregunte "¿Quién ama el pastel?". Investigaciones previas sobre listas cortas de entidades vinculadas encontraron evidencia sólida de que los LMs implementan dicha recuperación mediante un mecanismo posicional, donde "Ann" se recupera en función de su posición en el contexto. En este trabajo, encontramos que este mecanismo se generaliza pobremente en entornos más complejos; a medida que aumenta el número de entidades vinculadas en el contexto, el mecanismo posicional se vuelve ruidoso y poco confiable en posiciones intermedias. Para compensar esto, descubrimos que los LMs complementan el mecanismo posicional con un mecanismo léxico (recuperando "Ann" usando su contraparte vinculada "pastel") y un mecanismo reflexivo (recuperando "Ann" a través de un puntero directo). A través de extensos experimentos en nueve modelos y diez tareas de vinculación, descubrimos un patrón consistente en cómo los LMs combinan estos mecanismos para impulsar el comportamiento del modelo. Aprovechamos estas ideas para desarrollar un modelo causal que combina los tres mecanismos y estima las distribuciones del siguiente token con un 95% de concordancia. Finalmente, demostramos que nuestro modelo se generaliza a entradas sustancialmente más largas de texto abierto intercalado con grupos de entidades, lo que refuerza la solidez de nuestros hallazgos en entornos más naturales. En general, nuestro estudio establece una imagen más completa de cómo los LMs vinculan y recuperan entidades en contexto.
Los métodos predominantes para entrenar Modelos de Lenguaje a Gran Escala (LLMs) como codificadores de texto se basan en pérdidas contrastivas que tratan al modelo como una función de caja negra, descartando sus capacidades generativas y de razonamiento en favor de incrustaciones estáticas. Presentamos GRACE (Generative Representation Learning via Contrastive Policy Optimization), un marco novedoso que reinterpreta las señales contrastivas no como pérdidas que deben minimizarse, sino como recompensas que guían una política generativa. En GRACE, el LLM actúa como una política que produce racionales explícitos e interpretables por humanos—explicaciones estructuradas en lenguaje natural de su comprensión semántica. Estos racionales se codifican luego en incrustaciones de alta calidad mediante agrupación promedio. Utilizando optimización de gradiente de políticas, entrenamos el modelo con una función de recompensa multicomponente que maximiza la similitud entre pares positivos de consultas y minimiza la similitud con negativos. Esto transforma el LLM de un codificador opaco en un agente interpretable cuyo proceso de razonamiento es transparente e inspeccionable. En el benchmark MTEB, GRACE produce mejoras amplias en todas las categorías: en promedio sobre cuatro arquitecturas base, el ajuste supervisado mejora la puntuación general en un 11.5% sobre los modelos base, y la variante no supervisada añade un 6.9%, mientras se preservan las capacidades generales. Este trabajo trata los objetivos contrastivos como recompensas sobre racionales, unificando el aprendizaje de representaciones con la generación para producir incrustaciones más sólidas y racionales transparentes. El modelo, los datos y el código están disponibles en https://github.com/GasolSun36/GRACE.
Presentamos Human3R, un marco unificado y de avance directo para la reconstrucción 4D en línea de humanos en escenas, en el marco de referencia mundial, a partir de videos monoculares capturados de manera casual. A diferencia de enfoques previos que dependen de pipelines de múltiples etapas, refinamiento iterativo consciente del contacto entre humanos y escenas, y fuertes dependencias, como detección humana, estimación de profundidad y preprocesamiento SLAM, Human3R recupera conjuntamente cuerpos SMPL-X globales de múltiples personas ("todos"), escenas 3D densas ("en todas partes") y trayectorias de cámara en una sola pasada hacia adelante ("todo a la vez"). Nuestro método se basa en el modelo de reconstrucción 4D en línea CUT3R y utiliza ajuste de indicaciones visuales eficiente en parámetros, con el objetivo de preservar los ricos conocimientos espacio-temporales de CUT3R, mientras permite la lectura directa de múltiples cuerpos SMPL-X. Human3R es un modelo unificado que elimina dependencias pesadas y refinamiento iterativo. Después de ser entrenado en el conjunto de datos sintético de pequeña escala BEDLAM durante solo un día en una GPU, logra un rendimiento superior con una eficiencia notable: reconstruye múltiples humanos de manera única, junto con escenas 3D, en una sola etapa, a velocidad en tiempo real (15 FPS) con un bajo consumo de memoria (8 GB). Experimentos extensos demuestran que Human3R ofrece un rendimiento de vanguardia o competitivo en diversas tareas, incluyendo estimación global de movimiento humano, recuperación local de mallas humanas, estimación de profundidad en video y estimación de pose de cámara, con un solo modelo unificado. Esperamos que Human3R sirva como una línea base simple pero sólida, y sea fácilmente extendible para aplicaciones posteriores. Código disponible en https://fanegg.github.io/Human3R.
Los modelos modernos de procesamiento del lenguaje natural han alcanzado una escala sin precedentes, sin embargo, las herramientas para su evaluación a menudo siguen siendo un cuello de botella computacional, limitando el ritmo de la investigación. Esto es particularmente crítico para las métricas de evaluación durante el entrenamiento, como las señales de recompensa por oración en el Aprendizaje por Refuerzo, que deben operar de manera eficiente en lotes de identificadores de tokens directamente en la GPU. En este artículo, presentamos TensorBLEU, una implementación novedosa de la métrica BLEU diseñada desde cero para este caso de uso específico. Nuestro enfoque está completamente vectorizado para el cálculo por oración acelerado por GPU dentro de PyTorch e introduce un mecanismo de conteo eficiente en memoria. Al crear un diccionario compacto y específico para el lote de n-gramas utilizando torch.unique, nuestro método evita los costos prohibitivos de memoria de la vectorización tradicional basada en hashing, haciéndolo práctico para modelos de vocabulario grande. Evaluamos TensorBLEU en comparación con NLTK, la biblioteca estándar para el cálculo de BLEU basado en identificadores de tokens en la CPU. Los experimentos muestran que TensorBLEU ofrece aceleraciones de más de 13x en GPUs de consumo (NVIDIA T4) y supera 40x en hardware de clase centro de datos (NVIDIA A100). Este rendimiento transforma un cuello de botella significativo en una parte insignificante del ciclo de entrenamiento. Al definir claramente su papel como un "BLEU de identificadores de tokens" para fines de desarrollo y al liberar nuestra implementación como código abierto, proporcionamos una herramienta poderosa para acelerar la investigación en áreas como el ajuste fino de modelos basados en Aprendizaje por Refuerzo.
La Clasificación en Contexto (ICR, por sus siglas en inglés) es un paradigma emergente en la Recuperación de Información (IR), que aprovecha la comprensión contextual de los Modelos de Lenguaje de Gran Escala (LLMs) al incorporar directamente la descripción de la tarea, los documentos candidatos y la consulta en el mensaje de entrada del modelo, asignando al LLM la tarea de identificar los documentos relevantes. Aunque es efectivo, la eficiencia es un desafío significativo en este paradigma, especialmente a medida que la lista de candidatos crece debido al escalamiento cuadrático/super-lineal de la operación de atención con la longitud del contexto. Con este fin, este artículo identifica primero estructuras inherentes y explotables en la atención de los LLMs ajustados para ICR: (1) esparcidad de bloques inter-documentos: la atención es densa dentro de cada bloque de documentos pero dispersa entre diferentes documentos en el contexto; y (2) relevancia de bloques consulta-documento: las puntuaciones de atención de ciertos tokens de la consulta a un bloque de documentos en las capas intermedias se correlacionan fuertemente con la relevancia real de ese documento. Motivados por estas observaciones, introducimos BlockRank (Clasificación en Contexto por Bloques), un método novedoso que adapta la operación de atención en un LLM mediante (a) la imposición arquitectónica de la esparcidad de bloques inter-documentos observada, reduciendo la complejidad de la atención de cuadrática a lineal sin pérdida de rendimiento, y (b) la optimización de la relevancia de bloques consulta-documento para documentos verdaderamente relevantes durante el ajuste fino utilizando un objetivo de entrenamiento contrastivo auxiliar, mejorando la recuperación en la atención. Los experimentos en BEIR, MSMarco y NQ con Mistral-7B demuestran que FLARE Mistral iguala o supera a los clasificadores listwise de última generación existentes y a la línea base ajustada finamente controlada, siendo significativamente más eficiente en la inferencia (4.7x para 100 documentos de MSMarco en contexto) y escalando de manera elegante a listas cortas de contexto largo, alrededor de 500 documentos en contexto (aproximadamente 100K de longitud de contexto) en un segundo, presentando una solución escalable y efectiva para ICR.
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) es un paradigma poderoso para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), aunque su éxito depende de una exploración efectiva. Una estrategia de exploración ideal debe abordar dos desafíos fundamentales: debe preservar la calidad de las muestras y, al mismo tiempo, garantizar la estabilidad del entrenamiento. Aunque el muestreo estándar con temperatura fija es simple, tiene dificultades para equilibrar estas demandas contrapuestas, ya que temperaturas altas degradan la calidad de las muestras y temperaturas bajas limitan el descubrimiento. En este trabajo, proponemos una estrategia más simple y efectiva, el Decodificado Recocido Exploratorio (EAD, por sus siglas en inglés), basada en la idea de que la exploración tiene un mayor impacto en los primeros tokens, los cuales definen la dirección semántica de una secuencia. El EAD implementa una estrategia intuitiva de **explorar-al-principio, explotar-al-final** al reducir gradualmente la temperatura de muestreo de alta a baja durante la generación. Este esquema dinámico fomenta una diversidad significativa y de alto nivel al inicio, para luego disminuir gradualmente la temperatura y preservar la calidad de las muestras, manteniendo la distribución de muestreo cercana a la política objetivo, lo cual es esencial para un entrenamiento estable. Demostramos que el EAD es un método ligero y plug-and-play que mejora significativamente la eficiencia de las muestras, superando consistentemente al muestreo con temperatura fija en diversos algoritmos de RLVR y tamaños de modelos. Nuestro trabajo sugiere que alinear la exploración con la dinámica natural de la generación secuencial ofrece un camino robusto para mejorar el razonamiento de los LLMs.
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) con capacidades de razonamiento de múltiples pasos han demostrado habilidades notables para resolver problemas, pero también presentan vulnerabilidades de seguridad preocupantes que aún no se comprenden bien. En este trabajo, investigamos por qué falla la alineación de seguridad en los modelos de razonamiento a través de una lente de interpretabilidad mecanicista. Utilizando un enfoque de sondeo lineal para rastrear las intenciones de rechazo en las posiciones de los tokens, descubrimos un fenómeno llamativo denominado "precipicio de rechazo": muchos modelos de razonamiento mal alineados identifican correctamente las indicaciones dañinas y mantienen fuertes intenciones de rechazo durante su proceso de pensamiento, pero experimentan una caída abrupta en las puntuaciones de rechazo en los tokens finales antes de generar la salida. Esto sugiere que estos modelos no son inherentemente inseguros; más bien, sus intenciones de rechazo están sistemáticamente suprimidas. A través de un análisis de intervención causal, identificamos un conjunto reducido de cabezas de atención que contribuyen negativamente al comportamiento de rechazo. La ablación de solo el 3\% de estas cabezas puede reducir las tasas de éxito de los ataques por debajo del 10\%. Basándonos en estas ideas mecanicistas, proponemos Cliff-as-a-Judge, un novedoso método de selección de datos que identifica ejemplos de entrenamiento que exhiben el mayor precipicio de rechazo para reparar eficientemente la alineación de seguridad de los modelos de razonamiento. Este enfoque logra mejoras comparables en seguridad utilizando solo el 1.7\% de los datos de entrenamiento de seguridad convencionales, demostrando un efecto de "menos es más" en la alineación de seguridad.
La digitalización del mundo físico en entornos virtuales precisos y listos para simulación ofrece oportunidades significativas en diversos campos como la realidad aumentada y virtual, los videojuegos y la robótica. Sin embargo, los métodos actuales de reconstrucción 3D y comprensión de escenas suelen fallar en uno o más aspectos críticos, como la completitud geométrica, la interactividad de los objetos, la plausibilidad física, el renderizado fotorrealista o las propiedades físicas realistas para simulaciones dinámicas confiables. Para abordar estas limitaciones, presentamos HoloScene, un novedoso marco de reconstrucción 3D interactiva que logra simultáneamente estos requisitos. HoloScene aprovecha una representación integral de grafo de escena interactiva, codificando la geometría, apariencia y propiedades físicas de los objetos junto con relaciones jerárquicas e inter-objetos. La reconstrucción se formula como un problema de optimización basado en energía, integrando datos observacionales, restricciones físicas y priors generativos en un objetivo unificado y coherente. La optimización se realiza eficientemente mediante un enfoque híbrido que combina exploración basada en muestreo con refinamiento basado en gradientes. Los gemelos digitales resultantes exhiben geometría completa y precisa, estabilidad física y renderizado realista desde nuevos puntos de vista. Las evaluaciones realizadas en múltiples conjuntos de datos de referencia demuestran un rendimiento superior, mientras que casos de uso prácticos en videojuegos interactivos y manipulación en tiempo real de gemelos digitales ilustran la amplia aplicabilidad y efectividad de HoloScene. Página del proyecto: https://xiahongchi.github.io/HoloScene.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran capacidades impresionantes en una amplia gama de tareas, aunque aún no está claro si dicho éxito refleja un razonamiento genuino o un recuerdo sofisticado. Presentamos AInstein, un marco para evaluar si los LLMs pueden generar soluciones válidas a problemas de investigación en inteligencia artificial utilizando únicamente su conocimiento paramétrico preentrenado, sin ajustes específicos del dominio, aumentación de recuperación u otras ayudas externas. Nuestro enfoque extrae enunciados de problemas destilados de las propuestas de alta calidad presentadas a ICLR 2025, y luego asigna a agentes especializados en resolución la tarea de proponer y refinar soluciones técnicas mediante bucles iterativos de crítica, imitando los ciclos de propuesta, revisión y corrección centrales en la investigación científica. Evaluamos AInstein en 1,214 artículos de ICLR estratificados por nivel de aceptación (Oral, Spotlight, Poster), utilizando un paradigma de LLM-como-juez guiado por una rúbrica estructurada, complementado con verificaciones manuales específicas. El rendimiento se evalúa con tres métricas: Tasa de Éxito (¿la solución aborda el problema?), Redescubrimiento (¿se alinea con métodos propuestos por humanos?) y Novedad (¿produce enfoques válidos y originales?). Nuestros resultados revelan que, aunque los LLMs pueden redescubrir soluciones factibles y ocasionalmente proponer alternativas creativas, su capacidad para resolver problemas sigue siendo frágil y altamente sensible al enfoque. Estos hallazgos proporcionan la primera evidencia a gran escala sobre el grado en que los LLMs pueden actuar como solucionadores autónomos de problemas científicos, destacando tanto su potencial latente como sus limitaciones actuales.
La aceleración sin entrenamiento ha surgido como un área de investigación avanzada en la generación de videos basada en modelos de difusión. La redundancia de los latentes en la inferencia de modelos de difusión proporciona un punto de entrada natural para la aceleración. En este artículo, descomponemos el proceso de inferencia en las etapas de codificación, eliminación de ruido y decodificación, y observamos que los métodos de aceleración basados en caché a menudo provocan aumentos sustanciales de memoria en las dos últimas etapas. Para abordar este problema, analizamos las características de la inferencia en las diferentes etapas y proponemos estrategias específicas para reducir el consumo de memoria: 1) Intercambio asíncrono de caché. 2) Fragmentación de características. 3) Segmentación de latentes para decodificar. Al mismo tiempo, nos aseguramos de que la sobrecarga de tiempo introducida por estas tres estrategias se mantenga por debajo de las ganancias de aceleración en sí mismas. En comparación con la línea base, nuestro enfoque logra una velocidad de inferencia más rápida y un uso de memoria más bajo, manteniendo la degradación de la calidad dentro de un rango aceptable. El código está disponible en https://github.com/NKUShaw/LightCache.
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) ha surgido como un método simple y efectivo para alinear modelos de lenguaje de gran escala. Sin embargo, su dependencia de un parámetro de temperatura fijo conduce a un entrenamiento subóptimo en datos de preferencias diversos, causando sobreajuste en ejemplos fáciles y un aprendizaje insuficiente en aquellos informativos. Recientemente, han surgido métodos para contrarrestar esto. Mientras que IPO aborda el sobreajuste general, su regularización uniforme puede ser excesivamente conservadora. El enfoque más específico de beta-DPO sufre sus propias limitaciones: su adaptación a nivel de lote aplica una única temperatura comprometida a pares de márgenes mixtos, su regla de actualización lineal puede producir valores negativos de beta inestables, y su mecanismo de filtrado descarta señales de entrenamiento potencialmente útiles. En este trabajo, presentamos la Optimización Directa de Preferencias Adaptativa al Margen (MADPO), un método que ofrece una solución estable, que preserva los datos y opera a nivel de instancia. MADPO emplea un enfoque práctico de dos pasos: primero entrena un modelo de recompensa para estimar los márgenes de preferencia y luego utiliza estos márgenes para aplicar un peso continuo y adaptativo a la pérdida de DPO para cada muestra de entrenamiento individual. Este esquema de reponderación crea un margen objetivo efectivo que se amplifica para pares difíciles y se atenúa para pares fáciles, permitiendo un control granular sobre la señal de aprendizaje. Proporcionamos un análisis teórico completo, demostrando que MADPO tiene un paisaje de optimización bien comportado y es robusto a errores de estimación del modelo de recompensa. Validamos nuestra teoría con experimentos en una tarea de generación de sentimientos, donde MADPO supera consistentemente y de manera significativa a los métodos de referencia en conjuntos de datos de calidad variable. Logra mejoras de rendimiento de hasta +33.3\% en datos de Alta Calidad y +10.5\% en datos de Baja Calidad sobre el siguiente mejor método. Nuestros resultados establecen a MADPO como un enfoque más robusto y fundamentado para la alineación de preferencias.
Presentamos Equilibrium Matching (EqM), un marco de modelado generativo construido desde una perspectiva de dinámica de equilibrio. EqM descarta las dinámicas condicionadas en el tiempo y fuera de equilibrio presentes en los modelos generativos tradicionales basados en difusión y flujo, y en su lugar aprende el gradiente de equilibrio de un paisaje de energía implícito. A través de este enfoque, podemos adoptar un proceso de muestreo basado en optimización durante la inferencia, donde las muestras se obtienen mediante descenso de gradiente en el paisaje aprendido con tamaños de paso ajustables, optimizadores adaptativos y cómputo adaptable. Empíricamente, EqM supera el rendimiento de generación de los modelos de difusión/flujo, logrando un FID de 1.90 en ImageNet 256×256. Además, EqM está teóricamente justificado para aprender y muestrear a partir de la variedad de datos. Más allá de la generación, EqM es un marco flexible que maneja de manera natural tareas como la eliminación de ruido en imágenes parcialmente ruidosas, la detección de datos fuera de distribución (OOD) y la composición de imágenes. Al reemplazar las velocidades condicionadas en el tiempo con un paisaje de equilibrio unificado, EqM ofrece un puente más estrecho entre los modelos de flujo y los basados en energía, así como una ruta simple hacia la inferencia impulsada por optimización.
Los modelos de lenguaje de gran escala (LLMs) muestran potencial como asistentes científicos, sin embargo, los agentes existentes dependen únicamente de la evolución algorítmica o de la investigación profunda de manera aislada, ambos enfoques enfrentan limitaciones críticas. La evolución algorítmica pura, como en AlphaEvolve, depende exclusivamente del conocimiento interno de los LLMs y rápidamente alcanza un estancamiento en dominios complejos, mientras que la investigación profunda pura propone ideas sin validación, lo que resulta en soluciones poco realistas o no implementables. Presentamos DeepEvolve, un agente que integra la investigación profunda con la evolución algorítmica, combinando la recuperación de conocimiento externo, la edición de código entre archivos y la depuración sistemática dentro de un ciclo iterativo impulsado por retroalimentación. Cada iteración no solo propone nuevas hipótesis, sino que también las refina, implementa y prueba, evitando tanto mejoras superficiales como refinamientos improductivos. A lo largo de nueve puntos de referencia en química, matemáticas, biología, materiales y patentes, DeepEvolve mejora consistentemente el algoritmo inicial, produciendo nuevos algoritmos ejecutables con ganancias sostenidas. Al cerrar la brecha entre la evolución no guiada y la investigación sin fundamento, DeepEvolve proporciona un marco confiable para avanzar en el descubrimiento de algoritmos científicos. Nuestro código está disponible en https://github.com/liugangcode/deepevolve.
Los sistemas RAG (Generación Aumentada por Recuperación) y los agentes web son cada vez más evaluados en tareas de búsqueda profunda de múltiples saltos, aunque la práctica actual adolece de dos limitaciones principales. En primer lugar, la mayoría de los puntos de referencia filtran la ruta de razonamiento en el texto de la pregunta, lo que permite a los modelos seguir indicios superficiales en lugar de descubrir cadenas de razonamiento de manera autónoma. En segundo lugar, la evaluación suele reducirse a una única tasa de acierto, lo que comprime comportamientos diversos en una sola puntuación y oscurece si los fallos se deben a una búsqueda inadecuada, un uso deficiente del conocimiento o una negativa inapropiada. Para abordar estos problemas, presentamos WebDetective, un punto de referencia de preguntas de múltiples saltos sin pistas, acompañado de un entorno controlado de Wikipedia que garantiza la trazabilidad completa de las acciones del modelo, y un marco de evaluación holístico que separa la suficiencia de la búsqueda, la utilización del conocimiento y el comportamiento de negativa. Nuestra evaluación de 25 modelos de última generación revela debilidades sistemáticas en todas las arquitecturas: los modelos luchan con la utilización del conocimiento a pesar de tener evidencia suficiente y muestran una negativa apropiada casi ausente cuando falta evidencia. Estos patrones exponen una brecha fundamental: los sistemas actuales sobresalen en la ejecución de rutas de razonamiento dadas, pero fallan cuando se requiere descubrirlas. Desarrollamos un flujo de trabajo agentivo, EvidenceLoop, que aborda explícitamente los desafíos identificados por nuestro punto de referencia, incorporando bucles de verificación y seguimiento sistemático de evidencia que mejoran tanto las capacidades de búsqueda como de síntesis. Esta línea base demuestra que el marco diagnóstico de WebDetective puede guiar mejoras arquitectónicas concretas, estableciendo nuestro punto de referencia como una herramienta crítica para desarrollar sistemas de razonamiento genuinamente autónomos en lugar de agentes que siguen patrones.
La mayoría de los puntos de referencia existentes para la comprensión de la visión egocéntrica se centran principalmente en escenarios diurnos, pasando por alto las condiciones de baja iluminación que son inevitables en aplicaciones del mundo real. Para investigar esta brecha, presentamos EgoNight, el primer punto de referencia integral para la visión egocéntrica nocturna, con la respuesta a preguntas visuales (VQA, por sus siglas en inglés) como tarea central. Una característica clave de EgoNight es la introducción de videos alineados día-noche, que mejoran la calidad de las anotaciones nocturnas utilizando los datos diurnos y revelan brechas claras de rendimiento entre las condiciones de iluminación. Para lograrlo, recopilamos tanto videos sintéticos renderizados con Blender como grabaciones del mundo real, asegurando que las escenas y acciones estén visual y temporalmente alineadas. Aprovechando estos videos emparejados, construimos EgoNight-VQA, respaldado por un motor novedoso de etiquetado automático nocturno aumentado con datos diurnos y refinado mediante una extensa verificación humana. Cada par de preguntas y respuestas es revisado dos veces por anotadores para garantizar su fiabilidad. En total, EgoNight-VQA contiene 3658 pares de preguntas y respuestas en 90 videos, abarcando 12 tipos diversos de preguntas, con más de 300 horas de trabajo humano. Las evaluaciones de los modelos de lenguaje multimodal de última generación (MLLMs, por sus siglas en inglés) revelan caídas sustanciales en el rendimiento al transferirse del día a la noche, destacando los desafíos del razonamiento en condiciones de baja iluminación. Más allá de VQA, EgoNight también introduce dos tareas auxiliares: la recuperación de correspondencias día-noche y la estimación de profundidad egocéntrica en la noche, que exploran aún más los límites de los modelos existentes. Creemos que EgoNight-VQA proporciona una base sólida para avanzar en la investigación de la visión egocéntrica impulsada por aplicaciones y para desarrollar modelos que generalicen entre dominios de iluminación. Todos los datos y el código estarán disponibles tras su aceptación.
El despliegue de agentes autónomos de IA en dominios sensibles, como la atención médica, introduce riesgos críticos para la seguridad, la protección y la privacidad. Estos agentes pueden desviarse de los objetivos del usuario, violar políticas de manejo de datos o ser comprometidos por ataques adversarios. Mitigar estos peligros requiere un mecanismo que garantice formalmente que las acciones de un agente se adhieran a restricciones de seguridad predefinidas, un desafío que los sistemas existentes no abordan completamente. Presentamos VeriGuard, un marco novedoso que proporciona garantías formales de seguridad para agentes basados en LLM mediante una arquitectura de dos etapas diseñada para una corrección robusta y verificable. La etapa inicial fuera de línea implica un proceso de validación exhaustivo. Comienza clarificando la intención del usuario para establecer especificaciones de seguridad precisas. VeriGuard luego sintetiza una política de comportamiento y la somete tanto a pruebas como a verificación formal para demostrar su cumplimiento con estas especificaciones. Este proceso iterativo refina la política hasta que se considera correcta. Posteriormente, la segunda etapa proporciona monitoreo de acciones en línea, donde VeriGuard opera como un monitor en tiempo de ejecución para validar cada acción propuesta por el agente contra la política previamente verificada antes de su ejecución. Esta separación de la validación exhaustiva fuera de línea del monitoreo ligero en línea permite que las garantías formales se apliquen de manera práctica, proporcionando una salvaguarda robusta que mejora sustancialmente la confiabilidad de los agentes LLM.
La Conversación de Apoyo Emocional (CAE) desempeña un papel crucial en la reducción del estrés psicológico y en la provisión de valor emocional a través del diálogo. Si bien estudios recientes se han centrado principalmente en la ampliación de datos y la construcción de corpus sintéticos, a menudo pasan por alto los procesos cognitivos de razonamiento más profundos que sustentan un apoyo emocional efectivo. Para abordar esta brecha, proponemos CARE, un marco novedoso que fortalece el razonamiento en CAE sin depender de datos sintéticos a gran escala. CARE aprovecha el conjunto de entrenamiento original de CAE para guiar a los modelos en la generación de respuestas lógicamente coherentes y de apoyo, mejorando explícitamente el razonamiento cognitivo. Sobre esta base, empleamos además el aprendizaje por refuerzo para refinar y reforzar el proceso de razonamiento. Los resultados experimentales demuestran que CARE mejora significativamente tanto la solidez lógica como la calidad de apoyo de las respuestas, avanzando en el desarrollo de sistemas de apoyo emocional empáticos, cognitivamente robustos y similares a los humanos.
Si bien la cuantización posterior al entrenamiento es ampliamente adoptada para el despliegue eficiente de modelos de lenguaje a gran escala, los mecanismos subyacentes a la robustez de la cuantización siguen sin estar claros. Realizamos un análisis exhaustivo de la degradación por cuantización a lo largo de las trayectorias de entrenamiento de modelos de lenguaje de código abierto con hasta 32B de parámetros y 15T de tokens de entrenamiento, con el fin de evaluar con precisión la relación entre la dinámica del entrenamiento y el rendimiento de la cuantización. Nuestro hallazgo clave es que los errores de cuantización en entrenamientos a gran escala están impulsados por una compleja interacción entre la tasa de aprendizaje y otros hiperparámetros de entrenamiento. Específicamente, una vez que las tasas de aprendizaje decaen, la pérdida de validación y el error de cuantización divergen, en gran medida independientes de la escala de los datos de entrenamiento. Para investigar intervenciones en la dinámica del entrenamiento e identificar configuraciones específicas que puedan modular favorablemente la robustez de la cuantización, entrenamos nuestros propios modelos en experimentos controlados con hasta 100B de tokens. Nuestros resultados desafían la suposición de que aumentar la escala del conjunto de datos compromete inherentemente la efectividad de la cuantización, demostrando en cambio que intervenciones estratégicas en los hiperparámetros de entrenamiento pueden mejorar la calidad de la cuantización a gran escala.
La Segmentación de Objetos en Video Referenciada (RVOS, por sus siglas en inglés) requiere segmentar objetos específicos en un video guiados por una descripción en lenguaje natural. El desafío central de RVOS es anclar conceptos lingüísticos abstractos en un conjunto específico de píxeles y segmentarlos continuamente a través de las dinámicas complejas de un video. Ante esta dificultad, trabajos previos han descompuesto la tarea en una práctica canalización de `localizar y luego segmentar`. Sin embargo, este diseño en cascada crea un cuello de botella de información al simplificar la semántica en indicaciones geométricas gruesas (por ejemplo, un punto), y lucha por mantener la consistencia temporal, ya que el proceso de segmentación a menudo se desacopla de la anclaje inicial del lenguaje. Para superar estas limitaciones fundamentales, proponemos FlowRVS, un marco novedoso que reconceptualiza RVOS como un problema de flujo continuo condicional. Esto nos permite aprovechar las fortalezas inherentes de los modelos T2V preentrenados, el control fino de píxeles, la alineación semántica texto-video y la coherencia temporal. En lugar de generar convencionalmente desde el ruido hasta la máscara o predecir directamente la máscara, reformulamos la tarea aprendiendo una deformación directa guiada por el lenguaje desde la representación holística de un video hasta su máscara objetivo. Nuestro enfoque generativo de una sola etapa logra nuevos resultados de vanguardia en todos los principales puntos de referencia de RVOS. Específicamente, alcanzando un J&F de 51.1 en MeViS (+1.6 sobre el SOTA previo) y 73.3 en el Ref-DAVIS17 de disparo cero (+2.7), demostrando el potencial significativo de modelar tareas de comprensión de video como procesos de deformación continua.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son propensos a la alucinación, la generación de afirmaciones plausibles pero factualmente incorrectas. Este trabajo investiga los orígenes intrínsecos y arquitectónicos de este modo de fallo a través de tres contribuciones principales. En primer lugar, para permitir el rastreo confiable de fallos semánticos internos, proponemos el Rastreo Semántico Distribucional (DST, por sus siglas en inglés), un marco unificado que integra técnicas establecidas de interpretabilidad para producir un mapa causal del razonamiento de un modelo, tratando el significado como una función del contexto (semántica distribucional). En segundo lugar, identificamos la capa del modelo en la que una alucinación se vuelve inevitable, señalando una capa de compromiso específica donde las representaciones internas del modelo divergen irreversiblemente de la factualidad. En tercer lugar, identificamos el mecanismo subyacente de estos fallos. Observamos un conflicto entre distintas vías computacionales, que interpretamos utilizando la teoría de los procesos duales: una vía rápida y heurística asociativa (similar al Sistema 1) y una vía lenta y deliberada contextual (similar al Sistema 2), lo que conduce a modos de fallo predecibles como los Secuestros de Atajos de Razonamiento. La capacidad de nuestro marco para cuantificar la coherencia de la vía contextual revela una fuerte correlación negativa (rho = -0.863) con las tasas de alucinación, lo que implica que estos fallos son consecuencias predecibles de la debilidad semántica interna. El resultado es una explicación mecanicista de cómo, cuándo y por qué ocurren las alucinaciones dentro de la arquitectura Transformer.
La regresión de procesos gaussianos (GP, por sus siglas en inglés) ofrece una estrategia para acelerar la búsqueda de puntos de silla en superficies de energía de alta dimensión al reducir el número de veces que es necesario evaluar la energía y sus derivadas respecto a las coordenadas atómicas. Sin embargo, la sobrecarga computacional en la optimización de hiperparámetros puede ser grande y hacer que el enfoque sea ineficiente. También pueden ocurrir fallos si la búsqueda se adentra demasiado en regiones que no están suficientemente representadas por el modelo GP. Aquí, estos desafíos se resuelven utilizando medidas de transporte óptimo conscientes de la geometría y una estrategia de poda activa que emplea una suma sobre las distancias de Wasserstein-1 para cada tipo de átomo en un muestreo de puntos más lejanos, seleccionando un subconjunto de tamaño fijo de configuraciones geométricamente diversas para evitar el aumento rápido del costo de las actualizaciones del GP a medida que se realizan más observaciones. La estabilidad se mejora mediante una métrica invariante a permutaciones que proporciona un radio de confianza confiable para la detención temprana y una penalización de barrera logarítmica para el crecimiento de la varianza de la señal. Estos cambios algorítmicos motivados físicamente demuestran su eficacia al reducir a menos de la mitad el tiempo computacional promedio en un conjunto de 238 configuraciones desafiantes de un conjunto de datos previamente publicado de reacciones químicas. Con estas mejoras, el enfoque GP se establece como un algoritmo robusto y escalable para acelerar la búsqueda de puntos de silla cuando la evaluación de la energía y las fuerzas atómicas requiere un esfuerzo computacional significativo.
Los modelos de visión-lenguaje (VLMs, por sus siglas en inglés) suelen ser preentrenados con ventanas de texto cortas (<77 tokens), lo que obliga a truncar las descripciones de formato largo. Sin embargo, la distribución de las descripciones biomédicas provenientes de literatura de código abierto a gran escala revela que una gran parte de estas supera ampliamente los 77 tokens. Con este fin, investigamos el impacto del preentrenamiento en descripciones biomédicas de formato largo al extender la longitud del contexto de los codificadores de texto en los VLMs. Descubrimos que un contexto más largo (y, por lo tanto, la habilitación de supervisión adicional proporcionada en descripciones de formato largo) se correlaciona con un mejor rendimiento en tareas de recuperación y clasificación. Dado este hallazgo, presentamos BIOMEDICA-LongCAP, un conjunto de datos de 1 millón de pares imagen-descripción enriquecidos con descripciones contextuales extraídas de artículos de texto completo, lo que proporciona supervisión textual más extensa y adicional. Utilizando BIOMEDICA-LongCAP, entrenamos BMC-LongCLIP, un VLM biomédico de contexto largo con un codificador de texto que admite ventanas de hasta 512 tokens. Nuestro modelo extiende la capacidad de contexto en 6.6 veces, reduciendo el desperdicio de tokens del 55% a solo un 2.2%. En benchmarks de recuperación de descripciones largas, BMC-LongCLIP logra mejoras absolutas de hasta +30% en Recall@1 y un aumento promedio de +2% en clasificación, además de converger más rápido que los modelos de contexto corto. Nuestros resultados demuestran que el modelado de contexto largo es una dirección prometedora para avanzar en los VLMs biomédicos.
Los despliegues de modelos de lenguaje a gran escala en el mundo real (por ejemplo, sistemas de IA conversacional, asistentes de generación de código) generan naturalmente abundantes señales implícitas de insatisfacción del usuario (DSAT), ya que los usuarios iteran hacia respuestas mejores mediante refinamientos, correcciones y preferencias expresadas, mientras que la retroalimentación explícita de satisfacción (SAT) es escasa. Los enfoques existentes de aprendizaje de preferencias están mal alineados con este perfil de datos, ya que dependen de costosas anotaciones humanas o asumen respuestas positivas abundantes. En este artículo, presentamos DRIFT (Entrenamiento Iterativo de Preferencias Refinado por Insatisfacción), que ancla el entrenamiento en señales reales de DSAT y muestrea positivos dinámicamente a partir de la política en evolución. Empíricamente, los modelos DRIFT entrenados en conjuntos de datos reales de WildFeedback y conjuntos de datos sintéticos de UltraFeedback logran mejoras de hasta +6.23% (7B) / +7.61% (14B) en la puntuación de tareas de WildBench y hasta +8.95% (7B) / +12.29% (14B) en la tasa de victoria de AlpacaEval2 sobre los modelos base, superando métodos de referencia sólidos como DPO iterativo y SPIN. A escalas mayores, las mejoras son particularmente pronunciadas: los modelos de 14B entrenados con DRIFT superan a GPT-4o-mini en WildBench. Un análisis adicional muestra que DRIFT también preserva la capacidad exploratoria, generando soluciones más diversas de alta recompensa en lugar de colapsar en subconjuntos estrechos. Teóricamente, demostramos que este diseño preserva los márgenes de preferencia y evita la degeneración del gradiente. Estos resultados muestran que DRIFT es una receta efectiva y escalable para el entrenamiento posterior en el mundo real que aprovecha la señal más abundante e informativa. El código y los datos están disponibles en https://github.com/cacayaya/DRIFT.git.
Se ha demostrado que los datos de código mejoran las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), pero aún no está claro qué aspectos del código son los más responsables. Investigamos esta cuestión con un marco sistemático y centrado en los datos. Construimos conjuntos de datos de instrucciones paralelos en diez lenguajes de programación y aplicamos perturbaciones controladas que interrumpen selectivamente propiedades estructurales o semánticas del código. Luego, ajustamos LLMs de cinco familias de modelos y ocho escalas en cada variante y evaluamos su rendimiento en tareas de lenguaje natural, matemáticas y código. A través de 3,331 experimentos, nuestros resultados muestran que los LLMs son más vulnerables a las perturbaciones estructurales que a las semánticas, particularmente en tareas de matemáticas y código. Abstracciones adecuadas, como pseudocódigo y diagramas de flujo, pueden ser tan efectivas como el código, mientras que codificar la misma información con menos tokens sin adherirse a la sintaxis original a menudo puede mantener o incluso mejorar el rendimiento. Notablemente, incluso el código corrupto con señales engañosas sigue siendo competitivo cuando persisten regularidades superficiales. Finalmente, los estilos sintácticos también influyen en las ganancias específicas de tareas, con Python favoreciendo el razonamiento en lenguaje natural y lenguajes de más bajo nivel como Java y Rust favoreciendo las matemáticas. A través de nuestro marco sistemático, buscamos proporcionar información sobre cómo las diferentes propiedades del código influyen en el razonamiento y orientar el diseño de datos de entrenamiento para mejorar las capacidades de razonamiento de los LLMs.
El rendimiento de los modelos de aprendizaje automático depende en gran medida de los datos de entrenamiento. La escasez de conjuntos de datos a gran escala y bien anotados plantea desafíos significativos para la creación de modelos robustos. Para abordar este problema, los datos sintéticos generados mediante simulaciones y modelos generativos han surgido como una solución prometedora, mejorando la diversidad de los conjuntos de datos y optimizando el rendimiento, la confiabilidad y la resiliencia de los modelos. Sin embargo, evaluar la calidad de estos datos generados requiere una métrica efectiva. Este artículo presenta la Métrica de Calidad de Conjuntos de Datos Sintéticos (SDQM, por sus siglas en inglés) para evaluar la calidad de los datos en tareas de detección de objetos sin necesidad de que el entrenamiento del modelo converja. Esta métrica permite una generación y selección más eficiente de conjuntos de datos sintéticos, abordando un desafío clave en tareas de detección de objetos con recursos limitados. En nuestros experimentos, SDQM demostró una fuerte correlación con las puntuaciones de Precisión Media Promedio (mAP) de YOLOv11, un modelo líder en detección de objetos, mientras que métricas anteriores solo mostraron correlaciones moderadas o débiles. Además, proporciona información práctica para mejorar la calidad de los conjuntos de datos, minimizando la necesidad de costosos entrenamientos iterativos. Esta métrica escalable y eficiente establece un nuevo estándar para evaluar datos sintéticos. El código de SDQM está disponible en https://github.com/ayushzenith/SDQM.
El reconocimiento automático de acordes (ACR, por sus siglas en inglés) mediante modelos de aprendizaje profundo ha logrado gradualmente una precisión prometedora, aunque persisten dos desafíos clave. En primer lugar, trabajos previos se han centrado principalmente en ACR en el dominio del audio, mientras que el ACR en música simbólica (por ejemplo, partituras) ha recibido poca atención debido a la escasez de datos. En segundo lugar, los métodos existentes aún pasan por alto estrategias que están alineadas con las prácticas analíticas musicales humanas. Para abordar estos desafíos, realizamos dos contribuciones: (1) presentamos POP909-CL, una versión mejorada del conjunto de datos POP909 con contenido alineado en tempo y etiquetas corregidas manualmente de acordes, pulsos, tonalidades y compases; y (2) proponemos BACHI, un modelo de reconocimiento de acordes en música simbólica que descompone la tarea en diferentes pasos de decisión, concretamente la detección de límites y la clasificación iterativa de la raíz del acorde, su calidad y el bajo (inversión). Este mecanismo refleja las prácticas de entrenamiento auditivo humano. Los experimentos demuestran que BACHI alcanza un rendimiento de reconocimiento de acordes de vanguardia en referencias tanto de música clásica como pop, con estudios de ablación que validan la efectividad de cada módulo.
Los modelos de IA se utilizan cada vez más para el análisis y la visualización de datos, sin embargo, los puntos de referencia rara vez abordan tareas específicas de gráficos de dispersión, lo que limita la comprensión del rendimiento. Para abordar esta brecha en uno de los tipos de gráficos más comunes, presentamos un conjunto de datos sintético y anotado de más de 18,000 gráficos de dispersión generados a partir de seis generadores de datos y 17 diseños de gráficos, junto con un punto de referencia basado en él. Evaluamos modelos propietarios de OpenAI y Google utilizando el enfoque de N-shot prompting en cinco tareas distintas derivadas de las anotaciones de los cuadros delimitadores de clusters, sus coordenadas centrales y las coordenadas de valores atípicos. Los modelos de OpenAI y Gemini 2.5 Flash, especialmente cuando se les proporcionan ejemplos, son opciones viables para contar clusters y, en el caso de Flash, para identificar valores atípicos (precisión del 90% o más). Sin embargo, los resultados para tareas relacionadas con la localización son insatisfactorios: la precisión y la exhaustividad están cerca o por debajo del 50%, excepto para Flash en la identificación de valores atípicos (65.01%). Además, el impacto del diseño del gráfico en el rendimiento parece ser un factor secundario, pero se recomienda evitar gráficos de dispersión con relaciones de aspecto amplias (16:9 y 21:9) o aquellos coloreados de manera aleatoria. Los materiales complementarios están disponibles en https://github.com/feedzai/biy-paper.
En las últimas dos décadas, el reconocimiento de emociones en el habla (SER, por sus siglas en inglés) ha recibido una atención creciente. Para entrenar sistemas SER, los investigadores recopilan bases de datos de habla emocional anotadas por evaluadores externos o internos, quienes seleccionan emociones de categorías predefinidas. Sin embargo, los desacuerdos entre los evaluadores son comunes. Los métodos convencionales tratan estos desacuerdos como ruido, agregando las etiquetas en un único objetivo consensuado. Si bien esto simplifica el SER como una tarea de etiquetado único, ignora la subjetividad inherente de la percepción humana de las emociones. Esta disertación cuestiona tales supuestos y plantea: (1) ¿Deberían descartarse las valoraciones emocionales minoritarias? (2) ¿Deberían los sistemas SER aprender únicamente de las percepciones de unos pocos individuos? (3) ¿Deberían los sistemas SER predecir solo una emoción por muestra? Estudios psicológicos muestran que la percepción de las emociones es subjetiva y ambigua, con límites emocionales superpuestos. Proponemos nuevas perspectivas de modelado y evaluación: (1) Conservar todas las valoraciones emocionales y representarlas con distribuciones de etiquetas suaves. Los modelos entrenados con las valoraciones individuales de los anotadores y optimizados conjuntamente con sistemas SER estándar mejoran el rendimiento en pruebas con etiquetas consensuadas. (2) Redefinir la evaluación del SER incluyendo todos los datos emocionales y permitiendo emociones co-ocurrentes (por ejemplo, tristeza y enojo). Proponemos una "regla inclusiva" que agrega todas las valoraciones para maximizar la diversidad en la representación de etiquetas. Los experimentos en cuatro bases de datos de emociones en inglés muestran un rendimiento superior frente al etiquetado por mayoría o pluralidad. (3) Construir una matriz de penalización para desalentar combinaciones de emociones poco probables durante el entrenamiento. Integrarla en las funciones de pérdida mejora aún más el rendimiento. En general, adoptar valoraciones minoritarias, múltiples anotadores y predicciones multi-emocionales produce sistemas SER más robustos y alineados con la percepción humana.
Los modelos Visión-Lenguaje-Acción (VLAs) han demostrado un rendimiento notable en el control de robots. Sin embargo, siguen siendo fundamentalmente limitados en tareas que requieren alta precisión debido a su paradigma de inferencia única. Aunque los enfoques de escalado en tiempo de prueba que utilizan verificadores externos han mostrado resultados prometedores, requieren entrenamiento adicional y no logran generalizar a condiciones no vistas. Proponemos Selección Guiada por Distribución de Enmascaramiento (MG-Select), un novedoso marco de escalado en tiempo de prueba para VLAs que aprovecha las propiedades internas del modelo sin requerir entrenamiento adicional ni módulos externos. Nuestro enfoque utiliza la divergencia KL de una distribución de referencia de tokens de acción como métrica de confianza para seleccionar la acción óptima entre múltiples candidatos. Introducimos una distribución de referencia generada por el mismo VLA pero con estados y condiciones de lenguaje enmascarados aleatoriamente como entradas, asegurando la máxima incertidumbre mientras se mantiene alineada con la distribución de la tarea objetivo. Además, proponemos una estrategia de entrenamiento conjunto que permite al modelo aprender tanto distribuciones condicionales como incondicionales aplicando dropout a las condiciones de estado y lenguaje, mejorando así aún más la calidad de la distribución de referencia. Nuestros experimentos demuestran que MG-Select logra mejoras significativas en el rendimiento, incluyendo un 28%/35% de mejora en tareas del mundo real dentro de la distribución/fuera de la distribución, junto con una ganancia relativa del 168% en tareas de recoger y colocar de RoboCasa entrenadas con 30 demostraciones.
Los modelos de lenguaje multimodal (LLM) recientes han mostrado avances en la respuesta a preguntas visuales basadas en gráficos, pero su rendimiento disminuye drásticamente en gráficos no anotados, aquellos que requieren una interpretación visual precisa en lugar de depender de atajos textuales. Para abordar esto, presentamos ChartAgent, un marco agencial novedoso que realiza explícitamente razonamiento visual directamente en el dominio espacial del gráfico. A diferencia del razonamiento textual de cadena de pensamiento, ChartAgent descompone iterativamente las consultas en subtareas visuales y manipula e interactúa activamente con las imágenes de los gráficos mediante acciones especializadas, como dibujar anotaciones, recortar regiones (por ejemplo, segmentar porciones de un gráfico circular, aislar barras) y localizar ejes, utilizando una biblioteca de herramientas visuales específicas para gráficos para cumplir cada subtarea. Este proceso de razonamiento iterativo refleja de cerca las estrategias cognitivas humanas para la comprensión de gráficos. ChartAgent logra una precisión de vanguardia en los benchmarks ChartBench y ChartX, superando a métodos anteriores con una mejora absoluta de hasta 16.07% en general y 17.31% en consultas no anotadas y numéricamente intensivas. Además, nuestros análisis muestran que ChartAgent (a) es efectivo en diversos tipos de gráficos, (b) alcanza las puntuaciones más altas en distintos niveles de complejidad visual y de razonamiento, y (c) funciona como un marco plug-and-play que mejora el rendimiento en diversos LLM subyacentes. Nuestro trabajo es uno de los primeros en demostrar razonamiento visualmente fundamentado para la comprensión de gráficos utilizando agentes multimodales aumentados con herramientas.
Las técnicas modernas de alineación de preferencias, como el muestreo Best-of-N (BoN), se basan en modelos de recompensa entrenados con datos de comparación por pares. Aunque son efectivas para aprender preferencias relativas, este paradigma no logra capturar una señal de aceptabilidad de las respuestas, lo que deja a los sistemas vulnerables a seleccionar la menos mala entre muchas opciones inaceptables. Esto es particularmente problemático para indicaciones difíciles, donde el riesgo de tales falsas aceptaciones aumenta con el número de muestras. En este artículo, abordamos esta brecha crítica de confiabilidad introduciendo un nuevo marco de recopilación y modelado de datos. Al complementar los datos de preferencia con una opción externa, inspirados en modelos de elección discreta, entrenamos un modelo de recompensa que puede distinguir no solo qué es mejor, sino también qué es lo suficientemente bueno. Aprovechamos esta capacidad para crear una estrategia de inferencia adaptativa, best of mini-N in-loop, que divide el presupuesto de generación en bucles secuenciales con una condición de salida temprana calibrada. Nuestros experimentos muestran que, cuando se ajusta como una barrera de alineación, reduce los fallos de confiabilidad en un 70%, y cuando se ajusta como un acelerador de inferencia, mejora la velocidad promedio de inferencia en más del 22% en el entorno de sentimiento de IMDB. Así, proporcionamos un marco principiado y flexible para que los profesionales gestionen explícitamente el equilibrio entre confiabilidad y eficiencia computacional.
Los trabajos recientes sobre evaluación de contexto y memoria se han centrado principalmente en instancias conversacionales, pero la necesidad de evaluar la memoria en entornos empresariales dinámicos es crucial para su aplicación efectiva. Presentamos MEMTRACK, un benchmark diseñado para evaluar la memoria a largo plazo y el seguimiento de estados en entornos de agentes multiplataforma. MEMTRACK modela flujos de trabajo organizacionales realistas al integrar eventos asíncronos en múltiples plataformas de comunicación y productividad como Slack, Linear y Git. Cada instancia del benchmark proporciona una línea de tiempo intercalada cronológicamente entre plataformas, con información ruidosa, conflictiva y referenciada cruzadamente, así como la posible comprensión y exploración de bases de código o sistemas de archivos. En consecuencia, nuestro benchmark evalúa capacidades de memoria como adquisición, selección y resolución de conflictos. Curatoriamos el conjunto de datos MEMTRACK mediante un diseño manual basado en expertos y una síntesis escalable basada en agentes, generando escenarios ecológicamente válidos fundamentados en procesos reales de desarrollo de software. Introducimos métricas pertinentes para Correctitud, Eficiencia y Redundancia que capturan la efectividad de los mecanismos de memoria más allá del simple rendimiento en preguntas y respuestas. Los experimentos con los últimos modelos de lenguaje (LLMs) y backends de memoria revelan desafíos en la utilización de la memoria a lo largo de horizontes prolongados, el manejo de dependencias multiplataforma y la resolución de contradicciones. Notablemente, el modelo GPT-5, el de mejor rendimiento, solo alcanza un 60\% de puntuación en Correctitud en MEMTRACK. Este trabajo proporciona un marco extensible para avanzar en la investigación de evaluación de agentes aumentados con memoria, más allá del enfoque actual en configuraciones conversacionales, y sienta las bases para la evaluación de memoria en entornos organizacionales complejos con múltiples agentes y plataformas.
El cuidado del cabello es una actividad diaria esencial, pero sigue siendo inaccesible para personas con movilidad limitada y desafiante para sistemas robóticos autónomos debido a la estructura física detallada y la dinámica compleja del cabello. En este trabajo, presentamos DYMO-Hair, un sistema robótico de cuidado capilar basado en modelos. Introducimos un nuevo paradigma de aprendizaje de dinámicas adecuado para cantidades volumétricas como el cabello, que se basa en un mecanismo de edición de estados latentes condicionado por acciones, junto con un espacio latente 3D compacto de diversos peinados para mejorar la generalización. Este espacio latente se pre-entrena a gran escala utilizando un novedoso simulador de física capilar, permitiendo la generalización a peinados no vistos previamente. Utilizando el modelo de dinámicas con un planificador de Integral de Trayectoria Predictiva del Modelo (MPPI), DYMO-Hair es capaz de realizar estilización capilar visual condicionada por objetivos. Los experimentos en simulación demuestran que el modelo de dinámicas de DYMO-Hair supera a los métodos de referencia en la captura de deformaciones locales para diversos peinados no vistos. DYMO-Hair también supera a los métodos de referencia en tareas de estilización capilar en bucle cerrado para peinados no vistos, con un error geométrico final un 22% menor y una tasa de éxito un 42% mayor que el sistema más avanzado. Los experimentos en el mundo real muestran la transferibilidad de nuestro sistema a pelucas sin necesidad de ajuste adicional, logrando un éxito consistente en peinados desafiantes no vistos donde el sistema más avanzado falla. En conjunto, estos resultados establecen una base para el cuidado capilar robótico basado en modelos, avanzando hacia una estilización capilar robótica más generalizable, flexible y accesible en entornos físicos no restringidos. Más detalles están disponibles en nuestra página del proyecto: https://chengyzhao.github.io/DYMOHair-web/.
Distilar las huellas de pensamiento de un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) con capacidades de razonamiento en un modelo más pequeño ha demostrado ser efectivo. Sin embargo, existe una escasez de trabajos que exploren cómo el rendimiento del modelo escala con la cantidad de datos de destilación. En este trabajo, estudiamos la tendencia de escalabilidad al destilar habilidades de programación competitiva en dos pequeños LLM sin capacidades de razonamiento. Validamos la hipótesis de que existe un valle de razonamiento de código: el rendimiento en tareas de programación competitiva primero disminuye a medida que aumenta la cantidad de datos, y luego aumenta de manera más pronunciada que una tendencia log-lineal. Tras identificar esta tendencia, afinamos los modelos en dos etapas diferentes de destilación utilizando los mismos datos para fundamentar conclusiones sobre sus respectivas fases de aprendizaje. Descubrimos que, en regímenes de datos bajos y medio-bajos, los modelos pequeños se benefician significativamente más de preguntas de programación más fáciles que de las más difíciles. También encontramos que, sorprendentemente, la corrección de las salidas en los datos de entrenamiento no influye en los resultados de la destilación. Nuestro trabajo representa un avance en la comprensión de la dinámica de entrenamiento de la destilación de razonamiento de código más allá de la intuición.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) destacan en muchas tareas de Procesamiento del Lenguaje Natural (NLP), pero siguen siendo propensos a alucinaciones, lo que limita la confianza en aplicaciones del mundo real. Presentamos HalluGuard, un Modelo de Razonamiento Pequeño (SRM) de 4B parámetros diseñado para mitigar alucinaciones en la Generación Aumentada por Recuperación (RAG). HalluGuard clasifica pares de documento-afirmación como fundamentados o alucinados y produce justificaciones basadas en evidencia para garantizar la transparencia. Nuestro enfoque combina (i) un conjunto de datos sintético agnóstico al dominio derivado de FineWeb y refinado mediante una curación en múltiples etapas y reformulación de datos, (ii) afirmaciones sintéticas fundamentadas y alucinadas, y (iii) ajuste fino basado en preferencias con Optimización de Preferencias de Razón de Probabilidades para destilar el razonamiento de modelos grandes en una arquitectura más pequeña. En el subconjunto RAGTruth del benchmark LLM-AggreFact, HalluGuard alcanza un 84.0% de precisión equilibrada (BAcc), rivalizando con modelos especializados como MiniCheck (7B; 84.0%) y Granite Guardian 3.3 (8B; 82.2%) mientras utiliza aproximadamente la mitad de sus parámetros. En el benchmark completo, logra un 75.7% de BAcc, igualando a LLMs de propósito general más grandes como GPT-4o (75.9%). Publicaremos HalluGuard y los conjuntos de datos bajo la licencia Apache 2.0 tras su aceptación.