Artículos de investigación en IA seleccionados diariamente con traducciones
Estudios recientes han demostrado que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) poseen cierta capacidad para mejorar sus respuestas cuando reciben retroalimentación externa. Sin embargo, aún no está claro cuán efectiva y exhaustivamente estos modelos pueden incorporar retroalimentación extrínseca. En un escenario ideal, si los LLMs reciben retroalimentación casi perfecta y completa, esperaríamos que integraran plenamente dicha retroalimentación y cambiaran sus respuestas incorrectas por respuestas correctas. En este artículo, investigamos sistemáticamente la capacidad de los LLMs para incorporar retroalimentación mediante el diseño de un entorno experimental controlado. Para cada problema, un modelo solucionador intenta dar una solución, luego un generador de retroalimentación con acceso a respuestas de referencia casi completas produce retroalimentación dirigida, después de lo cual el solucionador intenta nuevamente. Evaluamos este proceso en una amplia gama de tareas, incluyendo razonamiento matemático, razonamiento de conocimiento, razonamiento científico y evaluaciones generales de múltiples dominios con modelos de lenguaje de última generación, como Claude 3.7 (con y sin pensamiento extendido). Sorprendentemente, incluso bajo estas condiciones casi ideales, los modelos solucionadores muestran consistentemente resistencia a la retroalimentación, una limitación que denominamos FRICCIÓN DE RETROALIMENTACIÓN. Para mitigar esta limitación, experimentamos con estrategias basadas en muestreo, como aumentos progresivos de temperatura y el rechazo explícito de respuestas incorrectas previamente intentadas, lo que produce mejoras pero aún no logra que los modelos alcancen el rendimiento objetivo. También realizamos una exploración rigurosa de las posibles causas de la FRICCIÓN DE RETROALIMENTACIÓN, descartando factores como la sobreconfianza del modelo y la familiaridad con los datos. Esperamos que destacar este problema en los LLMs y descartar varias causas aparentes ayude a futuras investigaciones en el ámbito de la automejora.
Los agentes basados en LLM orientados a tareas se utilizan cada vez más en dominios con políticas estrictas, como la elegibilidad para reembolsos o las normas de cancelación. El desafío radica en garantizar que el agente cumpla consistentemente con estas reglas y políticas, rechazando adecuadamente cualquier solicitud que las viole, mientras mantiene una interacción útil y natural. Esto requiere el desarrollo de metodologías de diseño y evaluación personalizadas para asegurar la resiliencia del agente frente a comportamientos maliciosos de los usuarios. Proponemos un nuevo modelo de amenaza que se centra en usuarios adversarios que buscan explotar agentes adherentes a políticas para beneficio personal. Para abordar esto, presentamos CRAFT, un sistema de red-teaming multiagente que aprovecha estrategias persuasivas conscientes de las políticas para socavar a un agente adherente a políticas en un escenario de servicio al cliente, superando métodos convencionales de jailbreak como los prompts DAN, la manipulación emocional y la coerción. Basándonos en el benchmark existente tau-bench, introducimos tau-break, un benchmark complementario diseñado para evaluar rigurosamente la robustez del agente frente a comportamientos manipuladores de los usuarios. Finalmente, evaluamos varias estrategias de defensa sencillas pero efectivas. Aunque estas medidas brindan cierta protección, resultan insuficientes, destacando la necesidad de salvaguardas más sólidas y basadas en investigación para proteger a los agentes adherentes a políticas de ataques adversarios.
Los modelos de difusión discreta de estado uniforme prometen una generación rápida de texto debido a su capacidad inherente para autocorregirse. Sin embargo, suelen ser superados por los modelos autoregresivos y los modelos de difusión enmascarada. En este trabajo, reducimos esta brecha de rendimiento aprovechando una idea clave: los procesos de difusión de estado uniforme emergen naturalmente de una difusión gaussiana subyacente. Nuestro método, Duo, transfiere técnicas avanzadas de la difusión gaussiana para mejorar tanto el entrenamiento como el muestreo. Primero, introducimos una estrategia de aprendizaje curricular guiada por el proceso gaussiano, duplicando la velocidad de entrenamiento al reducir la varianza. Los modelos entrenados con aprendizaje curricular superan a los modelos autoregresivos en la perplejidad de cero disparos en 3 de 7 puntos de referencia. Segundo, presentamos la Destilación de Consistencia Discreta, que adapta la destilación de consistencia del ámbito continuo al discreto. Este algoritmo permite la generación en pocos pasos en los modelos de difusión de lenguaje al acelerar el muestreo en dos órdenes de magnitud. Proporcionamos el código y los puntos de control del modelo en la página del proyecto: http://s-sahoo.github.io/duo.
Presentamos un marco basado en difusión que realiza la generación de imágenes y geometría de nuevas vistas alineadas mediante una metodología de deformación e inpaint. A diferencia de métodos anteriores que requieren imágenes densamente posadas o modelos generativos incrustados de pose limitados a vistas dentro del dominio, nuestro método aprovecha predictores de geometría estándar para predecir geometrías parciales vistas desde imágenes de referencia, y formula la síntesis de nuevas vistas como una tarea de inpaint tanto para la imagen como para la geometría. Para garantizar una alineación precisa entre las imágenes generadas y la geometría, proponemos una destilación de atención multimodal, donde los mapas de atención de la rama de difusión de imágenes se inyectan en una rama paralela de difusión de geometría durante el entrenamiento y la inferencia. Este enfoque multitarea logra efectos sinérgicos, facilitando la síntesis de imágenes geométricamente robustas, así como la predicción de geometría bien definida. Además, introducimos un condicionamiento de malla basado en proximidad para integrar señales de profundidad y normales, interpolando entre nubes de puntos y filtrando geometrías predichas erróneamente para evitar que influyan en el proceso de generación. Empíricamente, nuestro método logra una síntesis de vistas extrapolativas de alta fidelidad tanto en imágenes como en geometría en una variedad de escenas no vistas, ofrece una calidad de reconstrucción competitiva en configuraciones de interpolación y produce nubes de puntos coloreadas y alineadas geométricamente para una completación 3D integral. La página del proyecto está disponible en https://cvlab-kaist.github.io/MoAI.
Informes recientes afirman que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ahora superan a los humanos de élite en programación competitiva. Basándonos en el conocimiento de un grupo de medallistas en concursos internacionales de algoritmos, revisamos esta afirmación, examinando cómo los LLMs difieren de los expertos humanos y dónde persisten las limitaciones. Presentamos LiveCodeBench Pro, un punto de referencia compuesto por problemas de Codeforces, ICPC y IOI que se actualizan continuamente para reducir la probabilidad de contaminación de datos. Un equipo de medallistas olímpicos anota cada problema según categorías algorítmicas y realiza un análisis línea por línea de las soluciones generadas por modelos que fallan. Utilizando estos nuevos datos y punto de referencia, encontramos que los modelos de vanguardia aún tienen limitaciones significativas: sin herramientas externas, el mejor modelo logra solo un 53% de aciertos en problemas de dificultad media y un 0% en problemas difíciles, áreas en las que los expertos humanos aún sobresalen. También observamos que los LLMs tienen éxito en problemas con un fuerte componente de implementación, pero luchan con el razonamiento algorítmico matizado y el análisis de casos complejos, generando con frecuencia justificaciones incorrectas con confianza. El alto rendimiento parece estar impulsado principalmente por la precisión en la implementación y la ampliación de herramientas, no por un razonamiento superior. LiveCodeBench Pro destaca así la brecha significativa con los niveles de gran maestro humano, al tiempo que ofrece diagnósticos detallados para guiar futuras mejoras en el razonamiento de LLMs centrado en código.
Los Modelos de Lenguaje de Gran Escala enfrentan dificultades con las demandas de memoria del creciente caché Clave-Valor (KV) a medida que aumentan las longitudes de contexto. Los métodos de compresión existentes homogenizan las dimensiones de las cabezas o dependen de la poda de tokens guiada por atención, lo que a menudo sacrifica la precisión o introduce sobrecarga computacional. Proponemos FourierAttention, un marco libre de entrenamiento que aprovecha los roles heterogéneos de las dimensiones de las cabezas del transformador: las dimensiones inferiores priorizan el contexto local, mientras que las superiores capturan dependencias de largo alcance. Al proyectar las dimensiones insensibles al contexto largo sobre bases de Fourier ortogonales, FourierAttention aproxima su evolución temporal con coeficientes espectrales de longitud fija. Las evaluaciones en modelos LLaMA muestran que FourierAttention logra la mejor precisión de contexto largo en LongBench y Needle-In-A-Haystack (NIAH). Además, se ha diseñado un núcleo Triton personalizado, FlashFourierAttention, para optimizar la memoria mediante operaciones de lectura-escritura simplificadas, permitiendo un despliegue eficiente sin comprometer el rendimiento.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha demostrado una gran eficacia para ajustar finamente modelos de lenguaje de gran escala (LLMs) utilizando tareas que son desafiantes pero fácilmente verificables, como el razonamiento matemático o la generación de código. Sin embargo, extender este éxito a la percepción visual en modelos de visión y lenguaje (VLMs) se ha visto obstaculizado por la escasez de tareas centradas en la visión que sean simultáneamente desafiantes y inequívocamente verificables. Con este fin, presentamos ViCrit (Visual Caption Hallucination Critic), una tarea proxy de RL que entrena a los VLMs para localizar una sutil alucinación visual sintética inyectada en párrafos de descripciones de imágenes escritas por humanos. Partiendo de una descripción de 200 palabras, inyectamos un único error visual sutil que altera unas pocas palabras en objetos, atributos, cantidades o relaciones espaciales, y asignamos al modelo la tarea de identificar el fragmento corrupto dada la imagen y la descripción modificada. Esta formulación preserva la dificultad perceptual completa mientras proporciona una recompensa binaria de coincidencia exacta que es fácil de calcular y no ambigua. Los modelos entrenados con la tarea ViCrit muestran mejoras sustanciales en una variedad de benchmarks de VL. Crucialmente, las mejoras se transfieren más allá de los datos de entrenamiento de imágenes naturales al razonamiento con imágenes abstractas y a las matemáticas visuales, mostrando promesas de aprender a percibir en lugar de simplemente memorizar objetos vistos. Para facilitar la evaluación, presentamos además ViCrit-Bench, un benchmark diagnóstico equilibrado por categorías que examina sistemáticamente errores de percepción en diversos dominios de imágenes y tipos de errores. En conjunto, nuestros resultados demuestran que la crítica de alucinaciones de grano fino es un objetivo efectivo y generalizable para mejorar la percepción visual en los VLMs.
Los grandes modelos de lenguaje han mostrado potencial en la toma de decisiones clínicas, pero los enfoques actuales tienen dificultades para localizar y corregir errores en pasos específicos del proceso de razonamiento. Esta limitación es crítica en medicina, donde identificar y abordar errores de razonamiento es esencial para un diagnóstico preciso y una atención al paciente efectiva. Presentamos Med-PRM, un marco de modelado de recompensas por procesos que aprovecha la generación aumentada con recuperación para verificar cada paso del razonamiento frente a bases de conocimiento médico establecidas. Al verificar los pasos intermedios del razonamiento con evidencia recuperada de guías clínicas y literatura, nuestro modelo puede evaluar de manera precisa y detallada la calidad del razonamiento. Las evaluaciones en cinco benchmarks de preguntas y respuestas médicas y dos tareas de diagnóstico de respuesta abierta demuestran que Med-PRM alcanza un rendimiento de vanguardia, mejorando el rendimiento de los modelos base hasta en un 13,50% al utilizar Med-PRM. Además, demostramos la generalidad de Med-PRM al integrarlo de manera plug-and-play con modelos de políticas robustos como Meerkat, logrando por primera vez una precisión superior al 80% en MedQA utilizando modelos a pequeña escala de 8 mil millones de parámetros. Nuestro código y datos están disponibles en: https://med-prm.github.io/
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha demostrado ser efectivo para entrenar modelos de lenguaje de gran escala (LLMs) en tareas de razonamiento complejo, como la resolución de problemas matemáticos. Un requisito previo para la escalabilidad de RLVR es un conjunto de problemas de alta calidad con respuestas precisas y verificables. Sin embargo, la escasez de problemas matemáticos bien elaborados y etiquetados por humanos, junto con respuestas de verificación limitada en los conjuntos de datos sintéticos orientados a la destilación existentes, limita su efectividad en el aprendizaje por refuerzo. Además, la mayoría de las estrategias de síntesis de problemas expanden indiscriminadamente el conjunto de problemas sin considerar las capacidades del modelo, lo que resulta en una baja eficiencia al generar preguntas útiles. Para mitigar este problema, presentamos un marco de Síntesis de Problemas Autoconsciente y Orientado a Debilidades (SwS, por sus siglas en inglés) que identifica sistemáticamente las deficiencias del modelo y las aprovecha para la ampliación de problemas. Específicamente, definimos las debilidades como preguntas que el modelo no logra aprender consistentemente a través de su muestreo iterativo durante el entrenamiento de RL. Luego, extraemos los conceptos centrales de estos casos de fallo y sintetizamos nuevos problemas para fortalecer las áreas débiles del modelo en entrenamientos posteriores ampliados, permitiéndole enfocarse y superar gradualmente sus debilidades. Sin depender de la destilación de conocimiento externo, nuestro marco permite una generalización robusta al capacitar al modelo para autoidentificar y abordar sus debilidades en RL, logrando mejoras promedio en el rendimiento del 10.0% y 7.7% en modelos de 7B y 32B, respectivamente, en ocho benchmarks principales de razonamiento.
Los codificadores de visión base se han vuelto esenciales para una amplia gama de tareas de visión densa. Sin embargo, sus salidas de características espaciales de baja resolución requieren un muestreo ascendente de características para producir las modalidades de alta resolución necesarias para las tareas posteriores. En este trabajo, presentamos JAFAR, un muestreador ascendente de características ligero y flexible que mejora la resolución espacial de las características visuales de cualquier codificador de visión base a una resolución objetivo arbitraria. JAFAR emplea un módulo basado en atención diseñado para promover la alineación semántica entre consultas de alta resolución, derivadas de características de imagen de bajo nivel, y claves de baja resolución enriquecidas semánticamente, utilizando modulación de Transformación de Características Espaciales (SFT). Notablemente, a pesar de la ausencia de supervisión de alta resolución, demostramos que el aprendizaje en relaciones de muestreo ascendente y resoluciones bajas generaliza notablemente bien a escalas de salida significativamente más altas. Experimentos extensos muestran que JAFAR recupera efectivamente detalles espaciales finos y supera consistentemente los métodos existentes de muestreo ascendente de características en un conjunto diverso de tareas posteriores. Página del proyecto en https://jafar-upsampler.github.io.
Trabajos recientes han demostrado la efectividad del post-entrenamiento basado en aprendizaje por refuerzo (RL) para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). En particular, la Optimización de Política Relativa de Grupo (GRPO) ha mostrado un éxito impresionante al emplear un algoritmo de refuerzo estilo PPO con recompensas normalizadas basadas en grupos. Sin embargo, la aplicación de GRPO a Modelos de Lenguaje de Gran Escala para Video (Video LLMs) ha sido menos estudiada. En este artículo, exploramos GRPO para Video LLMs e identificamos dos problemas principales que dificultan su aprendizaje efectivo: (1) la dependencia de salvaguardas, y (2) el problema de la ventaja desvanecida. Para mitigar estos desafíos, proponemos DeepVideo-R1, un modelo de lenguaje de gran escala para video entrenado con nuestra propuesta Reg-GRPO (GRPO Regresivo) y una estrategia de aumento de datos consciente de la dificultad. Reg-GRPO reformula el objetivo de GRPO como una tarea de regresión, prediciendo directamente la ventaja en GRPO. Este diseño elimina la necesidad de salvaguardas como funciones de recorte y mínimos, facilitando así una guía de política más directa al alinear el modelo con los valores de ventaja. También diseñamos la estrategia de aumento de datos consciente de la dificultad que aumenta dinámicamente las muestras de entrenamiento en niveles de dificultad resolubles, fomentando señales de recompensa diversas e informativas. Nuestros experimentos exhaustivos muestran que DeepVideo-R1 mejora significativamente el rendimiento de razonamiento de video en múltiples benchmarks de razonamiento de video.
Las arquitecturas recurrentes modernas, como xLSTM y Mamba, han desafiado recientemente al Transformer en el modelado del lenguaje. Sin embargo, su estructura limita su aplicabilidad a secuencias o requiere procesar estructuras de datos multidimensionales, como imágenes o grafos moleculares, en un orden secuencial predefinido. En contraste, las Redes Neuronales Recurrentes Multidimensionales (MDRNNs) son adecuadas para datos con un nivel de estructura más alto, como cuadrículas 2D, árboles y grafos acíclicos dirigidos (DAGs). En este trabajo, extendemos la noción de multidimensionalidad a las RNNs lineales. Introducimos las redes de Transición de Fuente Lineal paralelizables (pLSTMs) utilizando puertas de Fuente, Transición y Marca que actúan sobre el grafo lineal de un DAG general. Esto permite la paralelización en analogía con los escaneos asociativos paralelos y la forma recurrente por bloques de las RNNs lineales secuenciales, pero para DAGs. Para cuadrículas regulares (1D y 2D), como imágenes, este esquema puede implementarse eficientemente utilizando operaciones einsum, concatenaciones y relleno en tiempo logarítmico. Las pLSTMs abordan el problema de la desaparición/explosión de activaciones/gradientes para distancias largas en DAGs mediante dos modos distintos: un modo de propagación dirigida (modo P) y un modo de distribución difusiva (modo D). Para demostrar las capacidades de largo alcance de las pLSTMs, introducimos la extrapolación de apuntado de flechas como una tarea sintética de visión por computadora que contiene información direccional de larga distancia. Demostramos que las pLSTMs generalizan bien a tamaños de imagen más grandes, mientras que los Transformers tienen dificultades para extrapolar. En benchmarks establecidos de grafos moleculares y visión por computadora, las pLSTMs también muestran un rendimiento sólido. El código y los conjuntos de datos están disponibles en: https://github.com/ml-jku/plstm_experiments.
El Transformer se ha convertido en el estándar de facto para los modelos de lenguaje a gran escala y una amplia gama de tareas posteriores en diversos dominios. A pesar de sus numerosas ventajas, como el paralelismo inherente en el entrenamiento, el Transformer aún enfrenta desafíos clave debido a su incapacidad para procesar eficazmente secuencias más allá de una ventana de contexto fija y la complejidad cuadrática de su mecanismo de atención. Estos desafíos han renovado el interés en arquitecturas similares a las RNN, que ofrecen escalabilidad lineal con la longitud de la secuencia y un mejor manejo de dependencias de largo alcance, aunque con un paralelismo limitado debido a su naturaleza inherentemente recurrente. En este artículo, proponemos Avey, una nueva arquitectura neuronal fundamental que se aparta tanto de la atención como de la recurrencia. Avey consta de un clasificador y un procesador neuronal autorregresivo, que colaboran para identificar y contextualizar únicamente los tokens más relevantes para cualquier token dado, independientemente de su posición en la secuencia. Específicamente, Avey desacopla la longitud de la secuencia del ancho del contexto, permitiendo así el procesamiento efectivo de secuencias arbitrariamente largas. Los resultados experimentales muestran que Avey se compara favorablemente con el Transformer en una variedad de benchmarks estándar de NLP de corto alcance, mientras que destaca notablemente en la captura de dependencias de largo alcance.
La edición de videos utilizando modelos de difusión ha logrado resultados notables en la generación de ediciones de alta calidad para videos. Sin embargo, los métodos actuales suelen depender de un preentrenamiento a gran escala, lo que limita la flexibilidad para ediciones específicas. La edición guiada por el primer fotograma proporciona control sobre el primer fotograma, pero carece de flexibilidad sobre los fotogramas subsiguientes. Para abordar esto, proponemos un método de ajuste basado en máscaras utilizando LoRA (Low-Rank Adaptation) que adapta modelos preentrenados de Imagen a Video (I2V) para una edición de video flexible. Nuestro enfoque preserva las regiones del fondo mientras permite la propagación controlada de las ediciones. Esta solución ofrece una edición de video eficiente y adaptable sin alterar la arquitectura del modelo. Para guiar mejor este proceso, incorporamos referencias adicionales, como puntos de vista alternativos o estados representativos de la escena, que sirven como anclajes visuales para cómo debería desarrollarse el contenido. Abordamos el desafío de control utilizando una estrategia de ajuste LoRA basada en máscaras que adapta un modelo preentrenado de imagen a video al contexto de edición. El modelo debe aprender de dos fuentes distintas: el video de entrada proporciona estructura espacial y pistas de movimiento, mientras que las imágenes de referencia ofrecen guía de apariencia. Una máscara espacial permite el aprendizaje específico de la región al modular dinámicamente a qué atiende el modelo, asegurando que cada área se base en la fuente apropiada. Los resultados experimentales muestran que nuestro método logra un rendimiento superior en la edición de videos en comparación con los métodos más avanzados.
Los avances recientes en los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) han mejorado significativamente la comprensión y generación multimodal. Sin embargo, estos modelos aún enfrentan dificultades para generar salidas de imagen-texto estrechamente entrelazadas, principalmente debido a la escala limitada, la calidad y la riqueza instructiva de los conjuntos de datos de entrenamiento actuales. Para abordar este problema, presentamos InterSyn, un conjunto de datos multimodal a gran escala construido utilizando nuestro método de Autoevaluación con Refinamiento Iterativo (SEIR, por sus siglas en inglés). InterSyn incluye diálogos de múltiples turnos impulsados por instrucciones con respuestas de imagen-texto estrechamente entrelazadas, ofreciendo una diversidad rica de objetos y un refinamiento de calidad automatizado riguroso, lo que lo hace adecuado para entrenar LMMs de próxima generación que sigan instrucciones. Además, para abordar la falta de herramientas de evaluación confiables capaces de evaluar salidas multimodales entrelazadas, presentamos SynJudge, un modelo de evaluación automática diseñado para cuantificar las salidas multimodales en cuatro dimensiones: contenido de texto, contenido de imagen, calidad de imagen y sinergia imagen-texto. Los estudios experimentales muestran que el método SEIR conduce a una calidad de conjunto de datos sustancialmente mayor en comparación con un proceso idéntico sin refinamiento. Además, los LMMs entrenados con InterSyn logran mejoras uniformes en todas las métricas de evaluación, confirmando la utilidad de InterSyn para avanzar en los sistemas multimodales.
Los robots humanoides tienen un potencial significativo para realizar tareas cotidianas en diversos entornos gracias a su flexibilidad y morfología similar a la humana. Trabajos recientes han logrado avances importantes en el control de cuerpo completo y la locomoción-manipulación de humanoides, aprovechando el control óptimo o el aprendizaje por refuerzo. Sin embargo, estos métodos requieren un ajuste tedioso y específico para cada tarea para lograr comportamientos satisfactorios, lo que limita su versatilidad y escalabilidad en diversas tareas de escenarios cotidianos. Con este fin, presentamos SkillBlender, un novedoso marco de aprendizaje por refuerzo jerárquico para la locomoción-manipulación versátil de humanoides. SkillBlender primero entrena habilidades primitivas agnósticas a la tarea condicionadas por objetivos, y luego combina dinámicamente estas habilidades para realizar tareas complejas de locomoción-manipulación con una ingeniería de recompensas específica para la tarea mínima. También presentamos SkillBench, un punto de referencia simulado paralelo, de encarnación cruzada y diverso que contiene tres encarnaciones, cuatro habilidades primitivas y ocho tareas desafiantes de locomoción-manipulación, acompañado de un conjunto de métricas de evaluación científica que equilibran precisión y viabilidad. Experimentos simulados extensos muestran que nuestro método supera significativamente a todas las líneas base, mientras regula naturalmente los comportamientos para evitar el hackeo de recompensas, lo que resulta en movimientos más precisos y viables para diversas tareas de locomoción-manipulación en nuestros escenarios cotidianos. Nuestro código y punto de referencia se pondrán a disposición de la comunidad para facilitar futuras investigaciones. Página del proyecto: https://usc-gvl.github.io/SkillBlender-web/.
El escalado en tiempo de prueba ha surgido como un enfoque efectivo para mejorar el rendimiento de los modelos de lenguaje al utilizar recursos computacionales adicionales durante la inferencia. Estudios recientes han demostrado que anular los tokens de fin de razonamiento (por ejemplo, reemplazar "</think>" con "Wait") puede extender los pasos de razonamiento y mejorar la precisión. En este trabajo, exploramos si se puede aprender un token dedicado de "continuar pensando" para desencadenar un razonamiento extendido. Aumentamos una versión destilada de DeepSeek-R1 con un único token aprendido "<|continuar-pensando|>", entrenando únicamente su incrustación mediante aprendizaje por refuerzo mientras mantenemos congelados los pesos del modelo. Nuestros experimentos muestran que este token aprendido logra una mayor precisión en benchmarks matemáticos estándar en comparación tanto con el modelo base como con un enfoque de escalado en tiempo de prueba que utiliza un token fijo (por ejemplo, "Wait") para forzar el presupuesto. En particular, observamos que en los casos en los que el enfoque de token fijo mejora la precisión del modelo base, nuestro método logra una mejora notablemente mayor. Por ejemplo, en el benchmark GSM8K, el enfoque de token fijo produce una mejora absoluta del 1.3% en la precisión, mientras que nuestro método de token aprendido alcanza una mejora del 4.2% sobre el modelo base que no utiliza forzado de presupuesto.
Para que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) puedan implementarse de manera confiable tanto en dominios cotidianos como en aquellos de alto riesgo, saber cuándo no responder es tan crítico como responder correctamente. Las consultas de usuarios en el mundo real, que pueden estar subespecificadas, mal planteadas o ser fundamentalmente irrespondibles, requieren que los LLMs razonen sobre la incertidumbre y se abstengan selectivamente, es decir, que se nieguen a responder de manera definitiva. Sin embargo, la abstención sigue siendo un tema poco estudiado, sin un marco de evaluación sistemático para los LLMs modernos. En este trabajo, presentamos AbstentionBench, un punto de referencia a gran escala para evaluar de manera integral la abstención en 20 conjuntos de datos diversos, incluyendo preguntas con respuestas desconocidas, subespecificación, premisas falsas, interpretaciones subjetivas e información desactualizada. La evaluación de 20 LLMs de vanguardia revela que la abstención es un problema no resuelto, y uno en el que escalar los modelos es de poca utilidad. Aunque los LLMs de razonamiento recientes han mostrado resultados impresionantes en la resolución de problemas complejos, sorprendentemente, encontramos que el ajuste fino de razonamiento degrada la abstención (en un 24% en promedio), incluso en dominios de matemáticas y ciencias en los que los modelos de razonamiento están explícitamente entrenados. Descubrimos que, aunque un mensaje de sistema cuidadosamente elaborado puede impulsar la abstención en la práctica, no resuelve la incapacidad fundamental de los modelos para razonar sobre la incertidumbre. Publicamos AbstentionBench para fomentar la investigación en el avance de la confiabilidad de los LLMs.
Proponemos un marco de autorrefinamiento que mejora el rendimiento del reconocimiento automático del habla (ASR) utilizando únicamente conjuntos de datos no etiquetados. El proceso comienza con un modelo ASR existente que genera pseudoetiquetas sobre habla no anotada, las cuales se utilizan para entrenar un sistema de texto a voz (TTS) de alta fidelidad. Luego, los pares de habla sintetizada y texto se incorporan en el sistema ASR original, completando así el ciclo cerrado de automejora. Demostramos la efectividad del marco en habla mandarín taiwanés. Aprovechando 6,000 horas de habla no etiquetada, una cantidad moderada de datos de texto y contenido sintético generado por modelos de inteligencia artificial, adaptamos Whisper-large-v2 en un modelo especializado, Twister. Twister reduce las tasas de error hasta en un 20% en mandarín y en un 50% en benchmarks de cambio de código mandarín-inglés en comparación con Whisper. Los resultados destacan este marco como una alternativa convincente a los enfoques de autodistilación con pseudoetiquetas y proporcionan una vía práctica para mejorar el rendimiento del ASR en entornos de bajos recursos o específicos de dominio.
Este trabajo se centra en una limitación observada en los codificadores de texto: los embeddings pueden no ser capaces de reconocer entidades o eventos de grano fino dentro de la semántica, lo que resulta en una recuperación densa fallida incluso en casos simples. Para examinar estos comportamientos, primero presentamos un nuevo conjunto de datos de evaluación en chino, denominado CapRetrieval, cuyos pasajes son descripciones de imágenes y las consultas son frases que indagan sobre entidades o eventos en diversas formas. La evaluación en modo zero-shot sugiere que los codificadores pueden fallar en estas coincidencias de grano fino, independientemente de las fuentes de entrenamiento o los tamaños del modelo. Con el objetivo de mejorar, procedemos a ajustar los codificadores con nuestras estrategias propuestas de generación de datos, lo que obtiene el mejor rendimiento en CapRetrieval. Dentro de este proceso, identificamos además un problema de dilema de granularidad, un desafío para que los embeddings expresen la relevancia de grano fino mientras se alinean con la semántica general. Nuestro conjunto de datos, código y modelos en este trabajo se han publicado públicamente en https://github.com/lxucs/CapRetrieval.
Los recientes esfuerzos para aprovechar el Modelo de Lenguaje Multimodal de Gran Escala (MLLM) como agentes de interfaz gráfica de usuario (GUI) han arrojado resultados prometedores. Sin embargo, estos agentes aún enfrentan dificultades con tareas de largo plazo en entornos en línea, principalmente debido a conocimientos insuficientes y la brecha inherente entre los dominios fuera de línea y en línea. En este artículo, inspirados por cómo los humanos generalizan conocimientos en entornos abiertos, proponemos un módulo de Habilidades Multimodales Jerárquicas (HMS) para abordar el problema del conocimiento insuficiente. Este módulo abstrae progresivamente las trayectorias en habilidades de ejecución, habilidades centrales y, finalmente, meta-habilidades, proporcionando una estructura de conocimiento jerárquica para la planificación de tareas de largo plazo. Para cerrar la brecha entre dominios, proponemos el algoritmo de Búsqueda en Árbol de Monte Carlo Aumentado con Habilidades (SA-MCTS), que aprovecha eficientemente las habilidades adquiridas en entornos fuera de línea para reducir el espacio de búsqueda de acciones durante la exploración en línea. Basándonos en HMS, proponemos Mirage-1, un agente GUI multimodal, multiplataforma y plug-and-play. Para validar el rendimiento de Mirage-1 en escenarios reales de largo plazo, construimos un nuevo punto de referencia, AndroidLH. Los resultados experimentales muestran que Mirage-1 supera a los agentes anteriores en un 32%, 19%, 15% y 79% en AndroidWorld, MobileMiniWob++, Mind2Web-Live y AndroidLH, respectivamente. Página del proyecto: https://cybertronagent.github.io/Mirage-1.github.io/
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran un rendimiento sólido en aplicaciones del mundo real. Sin embargo, los conjuntos de datos de instrucciones de código abierto existentes suelen concentrarse en dominios específicos, como matemáticas o programación, lo que limita la generalización y amplía la brecha con los modelos propietarios. Para reducir esta brecha, presentamos Infinity-Instruct, un conjunto de datos de instrucciones de alta calidad diseñado para mejorar tanto las capacidades fundamentales como de conversación de los LLMs mediante un proceso de dos fases. En la Fase 1, seleccionamos 7.4 millones de instrucciones fundamentales de alta calidad (InfInstruct-F-7.4M) a partir de más de 100 millones de muestras utilizando técnicas híbridas de selección de datos. En la Fase 2, sintetizamos 1.5 millones de instrucciones de conversación de alta calidad (InfInstruct-G-1.5M) mediante un proceso de dos etapas que incluye selección, evolución y filtrado diagnóstico de instrucciones. Evaluamos empíricamente Infinity-Instruct ajustando varios modelos de código abierto, como Mistral, LLaMA, Qwen y Yi, y observamos mejoras significativas en los puntos de referencia tanto fundamentales como de seguimiento de instrucciones, superando consistentemente a las versiones oficiales ajustadas con instrucciones. Destacablemente, InfInstruct-LLaMA3.1-70B supera a GPT-4-0314 en un 8.6\% en tareas de seguimiento de instrucciones, al tiempo que logra un rendimiento fundamental comparable. Estos resultados subrayan la sinergia entre el entrenamiento fundamental y de conversación y ofrecen nuevas perspectivas para el desarrollo integral de los LLMs. Nuestro conjunto de datos https://huggingface.co/datasets/BAAI/Infinity-Instruct y códigos https://gitee.com/li-touch/infinity-instruct han sido liberados públicamente.
La detección de memes nocivos es esencial para mantener la integridad de los entornos en línea. Sin embargo, los enfoques actuales suelen enfrentar dificultades en cuanto a la eficiencia de recursos, la flexibilidad o la explicabilidad, lo que limita su implementación práctica en los sistemas de moderación de contenido. Para abordar estos desafíos, presentamos U-CoT+, un marco novedoso para la detección de memes nocivos. En lugar de depender únicamente de la activación o el ajuste fino de modelos multimodales, primero desarrollamos una canalización de meme a texto de alta fidelidad que convierte memes visuales en descripciones textuales que preservan los detalles. Este diseño desacopla la interpretación del meme de su clasificación, evitando así el razonamiento inmediato sobre contenido visual crudo complejo y permitiendo la detección eficiente de memes nocivos utilizando modelos de lenguaje generales de gran escala (LLMs, por sus siglas en inglés). Basándonos en estas descripciones textuales, incorporamos además directrices interpretables y específicas elaboradas por humanos para guiar el razonamiento de los modelos bajo la activación de CoT (Chain-of-Thought) en modo cero-shot. De esta manera, este marco permite una fácil adaptación a diferentes criterios de detección de nocividad en distintas plataformas, regiones y a lo largo del tiempo, ofreciendo una alta flexibilidad y explicabilidad. Experimentos exhaustivos en siete conjuntos de datos de referencia validan la efectividad de nuestro marco, destacando su potencial para la detección explicable y de bajo recurso de memes nocivos utilizando LLMs a pequeña escala. Los códigos y datos están disponibles en: https://anonymous.4open.science/r/HMC-AF2B/README.md.
El paradigma estándar para resolver tareas de codificación mediante modelos de lenguaje grandes (LLMs) es generar y luego clasificar programas, donde este último paso utiliza un verificador en el proceso de clasificación. Existe un consenso creciente de que un verificador exhaustivo (por ejemplo, un conjunto completo de pruebas) debería priorizarse sobre un modelo de recompensa basado en resultados (ORM) siempre que sea posible, con poca consideración de las compensaciones involucradas. Nuestro objetivo es desafiar esta suposición explorando sistemáticamente el equilibrio entre velocidad y precisión. Descubrimos que los ORMs desempeñan un papel crucial en la escalabilidad de la verificación al intercambiar precisión por velocidad, incluso cuando está disponible un verificador exhaustivo. Su valor se vuelve especialmente evidente cuando se utiliza en un enfoque de generar-podar-y-luego-clasificar, donde un verificador más rápido pero menos preciso elimina soluciones incorrectas antes de la clasificación, lo que resulta en un sistema 11.65 veces más rápido y solo un 8.33% menos preciso que el conjunto completo de pruebas. Analizamos el enfoque de generar-podar-y-luego-clasificar y demostramos que funciona filtrando soluciones incorrectas pero altamente clasificadas. Estos hallazgos permiten el diseño de sistemas escalables y precisos para la clasificación de programas.
Presentamos un método basado en atención que utiliza máscaras de atención binarias aprendidas para garantizar que solo las regiones de la imagen atendidas influyan en la predicción. El contexto puede afectar fuertemente la percepción de objetos, a veces llevando a representaciones sesgadas, particularmente cuando los objetos aparecen en fondos fuera de distribución. Al mismo tiempo, muchas tareas a nivel de imagen centradas en objetos requieren identificar regiones relevantes, lo que a menudo exige contexto. Para abordar este dilema, proponemos un marco de dos etapas: la etapa 1 procesa la imagen completa para descubrir partes del objeto e identificar regiones relevantes para la tarea, mientras que la etapa 2 aprovecha el enmascaramiento de atención en la entrada para restringir su campo receptivo a estas regiones, permitiendo un análisis enfocado mientras filtra información potencialmente espuria. Ambas etapas se entrenan conjuntamente, lo que permite que la etapa 2 refine la etapa 1. Experimentos extensos en diversos benchmarks demuestran que nuestro enfoque mejora significativamente la robustez frente a correlaciones espurias y fondos fuera de distribución.
Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un potencial significativo para la anotación de datos, reduciendo notablemente los costos laborales asociados con aplicaciones posteriores. Sin embargo, los métodos existentes adoptan principalmente una estrategia agresiva al solicitar al LLM que determine una única etiqueta de referencia para cada muestra no etiquetada. Debido a la incertidumbre inherente en los LLMs, a menudo producen etiquetas incorrectas para muestras difíciles, lo que compromete gravemente la calidad de los datos para aplicaciones posteriores. Motivados por la aversión a la ambigüedad en el comportamiento humano, proponemos un nuevo paradigma de anotación de candidatos en el que se alienta a los modelos de lenguaje de gran escala a generar todas las etiquetas posibles cuando surja incertidumbre. Para garantizar que se proporcionen etiquetas únicas para tareas posteriores, desarrollamos un marco de trabajo de maestro-estudiante llamado CanDist, que destila las anotaciones de candidatos utilizando un Modelo de Lenguaje Pequeño (SLM, por sus siglas en inglés). Además, proporcionamos una justificación rigurosa que demuestra que la destilación de anotaciones de candidatos del LLM maestro ofrece garantías teóricas superiores en comparación con el uso directo de anotaciones únicas. Experimentos extensos en seis tareas de clasificación de texto validan la efectividad de nuestro método propuesto. El código fuente está disponible en https://github.com/MingxuanXia/CanDist.
Los modelos de retroalimentación humana para la alineación de la inteligencia artificial, como aquellos que sustentan la Optimización Directa de Preferencias (DPO, por sus siglas en inglés), suelen incorporar un conjunto singular y estático de preferencias, lo que limita su adaptabilidad. Este artículo cuestiona la suposición de preferencias monolíticas al introducir el Ajuste Configurable de Preferencias (CPT, por sus siglas en inglés), un marco novedoso que dota a los modelos de lenguaje de la capacidad de ajustar dinámicamente su comportamiento en función de directivas explícitas e interpretables por humanos. CPT aprovecha datos de preferencias generados sintéticamente, condicionados por indicaciones del sistema derivadas de rúbricas estructuradas y detalladas que definen atributos deseados, como el estilo de escritura. Al ajustar finamente con estas preferencias guiadas por rúbricas, el modelo de lenguaje aprende a modular sus salidas durante la inferencia en respuesta a la indicación del sistema, sin necesidad de reentrenamiento. Este enfoque no solo ofrece un control detallado, sino que también proporciona un mecanismo para modelar retroalimentación humana más matizada y dependiente del contexto. Varios artefactos experimentales, como el código de entrenamiento, conjuntos de datos generados y modelos ajustados, están disponibles en https://github.com/vicgalle/configurable-preference-tuning.