Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje por refuerzo basado en políticas actualmente desempeña un papel importante en la mejora de los LLMs (modelos de lenguaje grandes) en tareas de razonamiento matemático. Sin embargo, los métodos existentes de aprendizaje por refuerzo basados en rollouts (GRPO, DAPO, GSPO, etc.) no consideran explícitamente la capacidad de aprendizaje de los LLMs para muestras de diferentes niveles de dificultad, lo cual va en contra del proceso cognitivo humano en tareas de razonamiento matemático, que avanza de lo fácil a lo difícil. Intuitivamente, observamos que la varianza de la recompensa del grupo de rollouts en RLVR refleja parcialmente la dificultad de la muestra actual para los LLMs. Las muestras demasiado fáciles o demasiado difíciles tienen una varianza más baja, mientras que las muestras con dificultad moderada presentan una varianza más alta. Basándonos en esto, proponemos VCRL, un marco de aprendizaje por refuerzo curricular que controla dinámicamente la dificultad de las muestras de entrenamiento según la varianza de las recompensas grupales. Los experimentos en cinco benchmarks matemáticos y dos modelos demuestran las ventajas de VCRL sobre las líneas base actuales de aprendizaje por refuerzo para LLMs.
Los modelos de razonamiento multimodal de gran escala han logrado avances rápidos, pero su progreso está limitado por dos grandes restricciones: la ausencia de datos abiertos, a gran escala y de alta calidad con cadenas largas de pensamiento (CoT, por sus siglas en inglés), y la inestabilidad de los algoritmos de aprendizaje por refuerzo (RL, por sus siglas en inglés) en la fase posterior al entrenamiento. El marco estándar para el ajuste fino de RL, conocido como Group Relative Policy Optimization (GRPO), es propenso a la desaparición del gradiente cuando la varianza de la recompensa es baja, lo que debilita las señales de optimización y perjudica la convergencia. Este trabajo realiza tres contribuciones: (1) Proponemos Variance-Aware Sampling (VAS), una estrategia de selección de datos guiada por el Variance Promotion Score (VPS) que combina la varianza de los resultados y la diversidad de las trayectorias para promover la varianza de la recompensa y estabilizar la optimización de políticas. (2) Publicamos recursos a gran escala y cuidadosamente seleccionados que contienen ~1.6M datos de arranque en frío con CoT largos y ~15k pares de preguntas y respuestas para RL, diseñados para garantizar calidad, dificultad y diversidad, junto con un código de entrenamiento completamente reproducible de extremo a extremo. (3) Liberamos una familia de modelos de razonamiento multimodal en múltiples escalas, estableciendo líneas base estandarizadas para la comunidad. Los experimentos en benchmarks de razonamiento matemático demuestran la efectividad tanto de los datos seleccionados como del VAS propuesto. Estudios de ablación y análisis exhaustivos proporcionan una mayor comprensión de las contribuciones de cada componente. Además, establecemos teóricamente que la varianza de la recompensa limita inferiormente la magnitud esperada del gradiente de la política, con VAS como un mecanismo práctico para garantizar esto. Nuestro código, datos y puntos de control están disponibles en https://github.com/LengSicong/MMR1.
Presentamos un modelo fundacional de razonamiento científico que alinea el lenguaje natural con representaciones científicas heterogéneas. El modelo se preentrena en un corpus de 206B tokens que abarca texto científico, secuencias puras y pares secuencia-texto, luego se alinea mediante SFT en 40M instrucciones, utilizando un arranque en frío con recocido para elicitar cadenas de pensamiento extensas, y aprendizaje por refuerzo con modelado de recompensas específicas por tarea, lo que fomenta un razonamiento científico deliberado. Soporta cuatro familias de capacidades, cubriendo hasta 103 tareas en flujos de trabajo: (i) traducción fiel entre texto y formatos científicos, (ii) extracción de texto/conocimiento, (iii) predicción de propiedades, (iv) clasificación de propiedades, (v) generación y diseño de secuencias incondicionales y condicionales. En comparación con sistemas especializados, nuestro enfoque amplía la cobertura de instrucciones, mejora la generalización entre dominios y aumenta la fidelidad. Detallamos la curación de datos y el entrenamiento, y demostramos que el aprendizaje interdisciplinario fortalece la transferencia y la confiabilidad en tareas posteriores. El modelo, los conjuntos de datos para ajuste de instrucciones y el código de evaluación son de código abierto en https://huggingface.co/SciReason y https://github.com/open-sciencelab/SciReason.
Los avances recientes en el aprendizaje por refuerzo (RL) han mejorado significativamente las capacidades agentivas de los modelos de lenguaje grandes (LLMs). En tareas agentivas a largo plazo y de múltiples turnos, los enfoques existentes impulsados únicamente por recompensas de resultado suelen enfrentarse al problema de supervisión dispersa. Para abordar este desafío, proponemos la Optimización de Política Relativa Grupal Basada en Árboles (Tree-GRPO), un método de RL de agentes agrupados basado en búsqueda en árboles, donde cada nodo del árbol representa el paso completo de interacción del agente. Al compartir prefijos comunes, el muestreo de búsqueda en árboles aumenta el número de rollouts alcanzables dentro de un presupuesto fijo de tokens o llamadas a herramientas. Además, encontramos que la trayectoria estructurada en árbol permite naturalmente la construcción de señales de supervisión paso a paso, incluso utilizando solo la recompensa de resultado. Basándonos en esto, Tree-GRPO estima las ventajas relativas agrupadas tanto a nivel intra-árbol como inter-árbol. A través de análisis teórico, demostramos que el objetivo de la optimización de política relativa grupal a nivel intra-árbol es equivalente al del aprendizaje de preferencias directas a nivel de paso. Los experimentos en 11 conjuntos de datos y 3 tipos de tareas de preguntas y respuestas demuestran la superioridad del RL basado en árboles propuesto sobre el método de RL basado en cadenas.
Presentamos Seedream 4.0, un sistema eficiente y de alto rendimiento para la generación multimodal de imágenes que unifica la síntesis de texto a imagen (T2I), la edición de imágenes y la composición de múltiples imágenes en un único marco de trabajo. Desarrollamos un transformador de difusión altamente eficiente con un VAE potente que también puede reducir considerablemente el número de tokens de imagen. Esto permite un entrenamiento eficiente de nuestro modelo y le permite generar rápidamente imágenes nativas de alta resolución (por ejemplo, 1K-4K). Seedream 4.0 se ha preentrenado con miles de millones de pares de texto-imagen que abarcan diversas taxonomías y conceptos centrados en el conocimiento. Una recopilación exhaustiva de datos a través de cientos de escenarios verticales, junto con estrategias optimizadas, garantiza un entrenamiento estable y a gran escala, con una fuerte generalización. Al incorporar un modelo VLM cuidadosamente ajustado, realizamos un entrenamiento posterior multimodal para entrenar conjuntamente las tareas de T2I y edición de imágenes. Para la aceleración de la inferencia, integramos destilación adversaria, coincidencia de distribuciones y cuantización, así como decodificación especulativa. Logra un tiempo de inferencia de hasta 1.8 segundos para generar una imagen de 2K (sin un modelo LLM/VLM como PE). Evaluaciones exhaustivas revelan que Seedream 4.0 puede alcanzar resultados de vanguardia tanto en T2I como en la edición multimodal de imágenes. En particular, demuestra capacidades multimodales excepcionales en tareas complejas, incluyendo edición precisa de imágenes y razonamiento en contexto, y también permite la referencia de múltiples imágenes, pudiendo generar múltiples imágenes de salida. Esto extiende los sistemas tradicionales de T2I hacia una herramienta creativa más interactiva y multidimensional, impulsando los límites de la IA generativa tanto para la creatividad como para aplicaciones profesionales. Seedream 4.0 está ahora accesible en https://www.volcengine.com/experience/ark?launch=seedream.
Los recientes avances en modelos generativos nativos en 3D han acelerado la creación de activos para juegos, cine y diseño. Sin embargo, la mayoría de los métodos aún dependen principalmente de condicionamiento basado en imágenes o texto y carecen de controles detallados y multimodales, lo que limita la controlabilidad y la adopción práctica. Para abordar esta brecha, presentamos Hunyuan3D-Omni, un marco unificado para la generación de activos 3D detallados y controlables, construido sobre Hunyuan3D 2.1. Además de imágenes, Hunyuan3D-Omni acepta nubes de puntos, vóxeles, cajas delimitadoras y poses esqueléticas como señales de condicionamiento, permitiendo un control preciso sobre la geometría, topología y pose. En lugar de utilizar cabezales separados para cada modalidad, nuestro modelo unifica todas las señales en una única arquitectura multimodal. Entrenamos con una estrategia de muestreo progresivo y consciente de la dificultad que selecciona una modalidad de control por ejemplo y sesga el muestreo hacia señales más difíciles (por ejemplo, poses esqueléticas) mientras reduce el peso de las más sencillas (por ejemplo, nubes de puntos), fomentando una fusión multimodal robusta y un manejo elegante de entradas faltantes. Los experimentos muestran que estos controles adicionales mejoran la precisión en la generación, permiten transformaciones conscientes de la geometría y aumentan la robustez en los flujos de trabajo de producción.
AutoIntent es una herramienta de aprendizaje automático automatizado para tareas de clasificación de texto. A diferencia de las soluciones existentes, AutoIntent ofrece automatización integral con selección de modelos de incrustación, optimización de clasificadores y ajuste de umbrales de decisión, todo dentro de una interfaz modular similar a sklearn. El marco está diseñado para admitir clasificación multi-etiqueta y detección de casos fuera del alcance. AutoIntent demuestra un rendimiento superior en comparación con las herramientas de AutoML existentes en conjuntos de datos estándar de clasificación de intenciones y permite a los usuarios equilibrar la efectividad y el consumo de recursos.
La adopción de Modelos de Lenguaje de Gran Escala (LLMs) como evaluadores automatizados (LLM-como-juez) ha revelado inconsistencias críticas en los marcos de evaluación actuales. Identificamos dos tipos fundamentales de inconsistencias: (1) Inconsistencia en la Comparación de Puntuaciones, donde respuestas con puntuaciones más bajas superan a las de mayor puntuación en comparaciones por pares, y (2) Inconsistencia en la Transitividad de Pares, manifestada a través de cadenas circulares de preferencias (A>B>C>A) y contradicciones de equivalencia (A=B=C≠A). Argumentamos que estos problemas surgen de la pérdida de información en sistemas de calificación discretos y juicios ambiguos de empate durante la evaluación por pares. Proponemos TrustJudge, un marco probabilístico que aborda estas limitaciones mediante dos innovaciones clave: 1) puntuación sensible a la distribución que calcula expectativas continuas a partir de probabilidades de calificación discretas, preservando la entropía de la información para una puntuación más precisa, y 2) agregación consciente de la verosimilitud que resuelve violaciones de transitividad utilizando probabilidades de preferencia bidireccionales o perplejidad. También formalizamos las limitaciones teóricas de los marcos actuales de LLM-como-juez y demostramos cómo los componentes de TrustJudge las superan. Al evaluar con Llama-3.1-70B-Instruct como juez utilizando nuestro conjunto de datos, TrustJudge reduce la Inconsistencia en la Comparación de Puntuaciones en un 8.43% (de 23.32% a 14.89%) y la Inconsistencia en la Transitividad de Pares en un 10.82% (de 15.22% a 4.40%), manteniendo una mayor precisión en la evaluación. Nuestro trabajo proporciona el primer análisis sistemático de las inconsistencias en los marcos de evaluación en paradigmas de LLM-como-juez, ofreciendo tanto perspectivas teóricas como soluciones prácticas para una evaluación automatizada confiable. El marco demuestra mejoras consistentes en diversas arquitecturas y escalas de modelos, permitiendo una evaluación de LLM más confiable sin requerir entrenamiento adicional o anotaciones humanas. Los códigos pueden encontrarse en https://github.com/TrustJudge/TrustJudge.
Este artículo presenta un enfoque simple y escalable para mejorar la eficiencia de datos en el entrenamiento de modelos de lenguaje grandes (LLM, por sus siglas en inglés) mediante la ampliación de textos existentes con trayectorias de pensamiento. El cómputo requerido para el preentrenamiento de LLMs ha crecido a un ritmo sin precedentes, mientras que la disponibilidad de datos de alta calidad sigue siendo limitada. En consecuencia, maximizar la utilidad de los datos disponibles constituye un desafío de investigación significativo. Un obstáculo principal es que ciertos tokens de alta calidad son difíciles de aprender dada una capacidad fija del modelo, ya que la lógica subyacente de un solo token puede ser excepcionalmente compleja y profunda. Para abordar este problema, proponemos el Preentrenamiento Aumentado con Pensamiento (TPT, por sus siglas en inglés), una metodología universal que amplía los textos con trayectorias de pensamiento generadas automáticamente. Esta ampliación aumenta efectivamente el volumen de los datos de entrenamiento y hace que los tokens de alta calidad sean más fáciles de aprender mediante razonamientos y descomposiciones paso a paso. Aplicamos TPT en diversas configuraciones de entrenamiento de hasta 100B tokens, abarcando preentrenamiento tanto con datos limitados como abundantes, así como entrenamiento intermedio a partir de puntos de control fuertes de código abierto. Los resultados experimentales indican que nuestro método mejora sustancialmente el rendimiento de los LLMs en varios tamaños y familias de modelos. En particular, TPT aumenta la eficiencia de datos en el preentrenamiento de LLMs por un factor de 3. Para un modelo de 3B parámetros, mejora el rendimiento post-entrenamiento en más de un 10% en varios benchmarks desafiantes de razonamiento.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un paradigma poderoso para optimizar modelos de lenguaje de gran escala (LLMs) en tareas de razonamiento complejo. Un desafío central en este proceso radica en gestionar la entropía de la política, que refleja el equilibrio entre exploración y explotación durante el entrenamiento. Los métodos existentes, como la optimización de políticas proximales (PPO) y sus variantes, descartan señales de gradiente valiosas provenientes de tokens de baja probabilidad debido al mecanismo de recorte. Analizamos sistemáticamente la dinámica de la entropía y revelamos que estos tokens recortados desempeñan un papel crítico pero pasado por alto en la regulación de la evolución de la entropía. Proponemos Control de Entropía mediante Optimización de Políticas con Preservación de Gradiente (CE-GPPO), un algoritmo novedoso que reintroduce los gradientes de los tokens recortados en el PPO original de manera suave y acotada. Al controlar la magnitud de los gradientes de los tokens fuera del intervalo de recorte, CE-GPPO logra un equilibrio entre exploración y explotación. Proporcionamos justificación teórica y evidencia empírica que demuestra que CE-GPPO mitiga eficazmente la inestabilidad de la entropía. Experimentos exhaustivos en benchmarks de razonamiento matemático muestran que CE-GPPO supera consistentemente a los métodos de referencia en diferentes escalas de modelos.
Los avances recientes en la clonación de comportamiento (BC, por sus siglas en inglés) han permitido el desarrollo de políticas de control visuomotor impresionantes. Sin embargo, estos enfoques están limitados por la calidad de las demostraciones humanas, el esfuerzo manual requerido para la recopilación de datos y los rendimientos decrecientes al aumentar los datos fuera de línea. En comparación, el aprendizaje por refuerzo (RL, por sus siglas en inglés) entrena a un agente mediante la interacción autónoma con el entorno y ha demostrado un éxito notable en diversos dominios. Aún así, el entrenamiento de políticas de RL directamente en robots del mundo real sigue siendo un desafío debido a la ineficiencia en el muestreo, las preocupaciones de seguridad y la dificultad de aprender a partir de recompensas escasas para tareas de largo horizonte, especialmente en sistemas con un alto grado de libertad (DoF, por sus siglas en inglés). Presentamos una metodología que combina los beneficios de BC y RL a través de un marco de aprendizaje residual. Nuestro enfoque aprovecha las políticas de BC como bases de caja negra y aprende correcciones residuales ligeras por paso mediante RL fuera de política eficiente en muestreo. Demostramos que nuestro método requiere solo señales de recompensa binarias escasas y puede mejorar eficazmente las políticas de manipulación en sistemas de alto grado de libertad (DoF) tanto en simulación como en el mundo real. En particular, demostramos, hasta donde sabemos, el primer entrenamiento exitoso de RL en el mundo real en un robot humanoide con manos diestras. Nuestros resultados muestran un rendimiento de vanguardia en diversas tareas basadas en visión, señalando un camino práctico para implementar RL en el mundo real. Sitio web del proyecto: https://residual-offpolicy-rl.github.io
Presentamos CHARM, una novedosa representación paramétrica y marco generativo para el modelado de peinados de anime. Mientras que los métodos tradicionales de modelado de cabello se centran en cabello realista utilizando representaciones basadas en hebras o volumétricas, los peinados de anime exhiben una geometría altamente estilizada y estructurada por partes que desafía las técnicas existentes. Los trabajos previos suelen depender de modelado denso de mallas o curvas spline creadas manualmente, lo que los hace ineficientes para la edición y poco adecuados para el aprendizaje escalable. CHARM introduce una parametrización compacta e invertible basada en puntos de control, donde una secuencia de puntos de control representa cada mechón de cabello, y cada punto se codifica con solo cinco parámetros geométricos. Esta representación eficiente y precisa permite tanto el diseño amigable para artistas como la generación basada en aprendizaje. Basado en esta representación, CHARM introduce un marco generativo autorregresivo que genera efectivamente peinados de anime a partir de imágenes o nubes de puntos de entrada. Al interpretar los peinados de anime como un "lenguaje de cabello" secuencial, nuestro transformador autorregresivo captura tanto la geometría local como la topología global del peinado, lo que resulta en la creación de peinados de anime de alta fidelidad. Para facilitar tanto el entrenamiento como la evaluación de la generación de peinados de anime, construimos AnimeHair, un conjunto de datos a gran escala de 37K peinados de anime de alta calidad con mechones separados y datos de malla procesados. Experimentos extensos demuestran un rendimiento de vanguardia de CHARM tanto en precisión de reconstrucción como en calidad de generación, ofreciendo una solución expresiva y escalable para el modelado de peinados de anime. Página del proyecto: https://hyzcluster.github.io/charm/
En los últimos años, los modelos multimodales han logrado avances notables y han allanado el camino para el uso de agentes inteligentes en navegadores. Sin embargo, al resolver tareas en páginas web del mundo real en trayectorias de múltiples turnos y largo horizonte, los agentes actuales aún enfrentan problemas de secuenciación desordenada de acciones y un exceso de ensayo y error durante la ejecución. Este artículo presenta Recon-Act, un marco de trabajo multiagente auto-evolutivo basado en el paradigma de comportamiento Reconocimiento-Acción. El sistema consta de un Equipo de Reconocimiento y un Equipo de Acción: el primero realiza análisis comparativos y generación de herramientas, mientras que el segundo maneja la descomposición de intenciones, la orquestación de herramientas y la ejecución. Al contrastar las trayectorias erróneas con las exitosas, el Equipo de Reconocimiento infiere remedios y los abstrae en una noción unificada de herramientas generalizadas, ya sea expresadas como sugerencias o como códigos basados en reglas, y las registra en el archivo de herramientas en tiempo real. El Equipo de Acción reinfiere el proceso potenciado con estas herramientas específicas, estableciendo así un ciclo cerrado de entrenamiento de datos-herramientas-acción-retroalimentación. Siguiendo la hoja de ruta de implementación de 6 niveles propuesta en este trabajo, actualmente hemos alcanzado el Nivel 3 (con intervención limitada de humanos en el ciclo). Aprovechando las herramientas generalizadas obtenidas mediante el reconocimiento, Recon-Act mejora sustancialmente la adaptabilidad a sitios web no vistos y la capacidad de resolución en tareas de largo horizonte, logrando un rendimiento de vanguardia en el desafiante conjunto de datos VisualWebArena.
La composición de imágenes busca insertar de manera fluida un objeto especificado por el usuario en una nueva escena, pero los modelos existentes tienen dificultades con iluminaciones complejas (por ejemplo, sombras precisas, reflejos en el agua) y entradas diversas y de alta resolución. Los modelos modernos de difusión de texto a imagen (por ejemplo, SD3.5, FLUX) ya codifican conocimientos físicos y de resolución esenciales, pero carecen de un marco para liberarlos sin recurrir a la inversión latente, que a menudo fija las poses de los objetos en orientaciones contextualmente inapropiadas, o a cirugías de atención frágiles. Proponemos SHINE, un marco sin entrenamiento para Inserción Fluida y de Alta Fidelidad con Errores Neutralizados. SHINE introduce una pérdida de anclaje guiada por variedades, aprovechando adaptadores de personalización preentrenados (por ejemplo, IP-Adapter) para guiar los latentes hacia una representación fiel del sujeto mientras se preserva la integridad del fondo. Se proponen guías de supresión de degradación y mezcla adaptativa del fondo para eliminar aún más las salidas de baja calidad y las costuras visibles. Para abordar la falta de puntos de referencia rigurosos, presentamos ComplexCompo, que incluye diversas resoluciones y condiciones desafiantes como iluminación baja, iluminación intensa, sombras intrincadas y superficies reflectantes. Los experimentos en ComplexCompo y DreamEditBench muestran un rendimiento de vanguardia en métricas estándar (por ejemplo, DINOv2) y puntuaciones alineadas con la percepción humana (por ejemplo, DreamSim, ImageReward, VisionReward). El código y el punto de referencia estarán disponibles públicamente tras la publicación.
Mientras que los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) generan cadenas de pensamiento extensas, carecemos de un marco teórico fundamentado para comprender cómo se estructuran estos pensamientos. En este artículo, presentamos un enfoque novedoso al aplicar la Teoría de Episodios de Schoenfeld, un marco cognitivo clásico para la resolución de problemas matemáticos humanos, para analizar las trazas de razonamiento de los LRMs. Anotamos miles de oraciones y párrafos de soluciones generadas por modelos a problemas matemáticos utilizando siete etiquetas cognitivas (por ejemplo, Planificar, Implementar, Verificar). El resultado es el primer punto de referencia disponible públicamente para el análisis detallado del razonamiento automático, que incluye un corpus anotado de gran tamaño y guías de anotación detalladas. Nuestro análisis preliminar revela patrones distintivos en el razonamiento de los LRMs, como las dinámicas de transición entre estados cognitivos. Este marco proporciona una metodología teóricamente fundamentada para interpretar la cognición de los LRMs y permite trabajos futuros en sistemas de razonamiento más controlables y transparentes.
Presentamos SD3.5-Flash, un marco eficiente de destilación en pocos pasos que lleva la generación de imágenes de alta calidad a dispositivos de consumo accesibles. Nuestro enfoque destila modelos de flujo rectificado computacionalmente prohibitivos mediante un objetivo reformulado de coincidencia de distribuciones diseñado específicamente para la generación en pocos pasos. Introducimos dos innovaciones clave: "compartición de pasos temporales" para reducir el ruido en los gradientes y "ajuste fino de pasos temporales divididos" para mejorar la alineación con las indicaciones. Combinado con optimizaciones integrales de la pipeline, como la reestructuración del codificador de texto y la cuantización especializada, nuestro sistema permite tanto una generación rápida como un despliegue eficiente en memoria en diferentes configuraciones de hardware. Esto democratiza el acceso en todo el espectro de dispositivos, desde teléfonos móviles hasta computadoras de escritorio. A través de una evaluación exhaustiva que incluye estudios de usuarios a gran escala, demostramos que SD3.5-Flash supera consistentemente a los métodos existentes de pocos pasos, haciendo que la IA generativa avanzada sea verdaderamente accesible para su implementación práctica.
Los modelos de lenguaje de código de gran escala han demostrado capacidades notables en tareas de programación, sin embargo, los puntos de referencia actuales se centran principalmente en una sola modalidad en lugar del desarrollo de juegos visuales. La mayoría de los puntos de referencia relacionados con código evalúan la corrección sintáctica y la precisión de ejecución, pasando por alto métricas críticas específicas de juegos, como la jugabilidad, la estética visual y el compromiso del usuario, que son esenciales para el despliegue en el mundo real. Para abordar la brecha entre las capacidades actuales de los LLM en la resolución de problemas algorítmicos y la programación competitiva frente a los requisitos integrales del desarrollo práctico de juegos, presentamos V-GameGym, un punto de referencia integral que comprende 2,219 muestras de alta calidad en 100 grupos temáticos derivados de repositorios del mundo real, adoptando una metodología de curación basada en agrupación novedosa para garantizar tanto la diversidad como la integridad estructural. Además, introducimos un marco de evaluación multimodal con una canalización automatizada impulsada por LLM para la síntesis visual de código utilizando entornos de sandbox de UI completos. Nuestro análisis extensivo revela que V-GameGym efectivamente cierra la brecha entre la precisión de la generación de código y los flujos de trabajo prácticos de desarrollo de juegos, proporcionando métricas de calidad cuantificables para la programación visual y la generación de elementos interactivos.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha demostrado ser prometedor en la formación de modelos agentes que van más allá de los puntos de referencia estáticos para participar en interacciones dinámicas y de múltiples turnos. Sin embargo, el valor último de dichos agentes radica en su capacidad para asistir a los usuarios, un escenario en el que la diversidad y la dinámica de la interacción del usuario plantean desafíos. En este trabajo, proponemos UserRL, un marco unificado para entrenar y evaluar habilidades centradas en el usuario a través de entornos de gimnasio estandarizados combinados con usuarios simulados. Variamos sistemáticamente la asignación de recompensas a nivel de turno y el cálculo de puntuaciones a nivel de trayectoria para analizar cómo diferentes formulaciones afectan el aprendizaje bajo el algoritmo GRPO. Nuestros experimentos en modelos Qwen3 revelan tres hallazgos clave: (i) el inicio en frío de SFT es crucial para desbloquear la capacidad inicial de interacción y permitir mejoras sostenidas en RL; (ii) la puntuación deliberada de trayectorias produce interacciones de múltiples turnos más eficientes y efectivas; y (iii) aunque usuarios simulados más fuertes (por ejemplo, GPT-4o) facilitan el entrenamiento, los simuladores de código abierto (por ejemplo, Qwen3-32B) siguen siendo una opción rentable y transferible. En conjunto, estos resultados destacan que el diseño cuidadoso de la configuración de recompensas y la elección de la simulación de usuarios es tan crucial como la escala del modelo, y establecen a UserRL como una vía práctica para desarrollar modelos agentes robustos centrados en el usuario. Todos los códigos y datos están disponibles públicamente para futuras investigaciones.
Los modelos de reconstrucción 3D basados en aprendizaje, representados por los Transformers de Geometría Visual Fundamentada (VGGTs, por sus siglas en inglés), han logrado avances notables con el uso de transformers a gran escala. Sin embargo, sus costos prohibitivos de computación y memoria dificultan severamente su implementación en el mundo real. La Cuantización Post-Entrenamiento (PTQ, por sus siglas en inglés) se ha convertido en una práctica común para comprimir y acelerar modelos. No obstante, observamos empíricamente que la PTQ enfrenta obstáculos únicos al comprimir VGGTs de escala de miles de millones: los tokens especiales independientes de los datos inducen distribuciones de activación de cola pesada, mientras que la naturaleza multivista de los datos 3D hace que la selección de muestras de calibración sea altamente inestable. Este artículo propone el primer marco de Cuantización para VGGTs, denominado QuantVGGT. Esto se basa principalmente en dos contribuciones técnicas: En primer lugar, introducimos la Cuantización de Grano Fino con Suavizado Dual, que integra una rotación de Hadamard pre-global y un suavizado de canal post-local para mitigar de manera robusta las distribuciones de cola pesada y la varianza entre canales. En segundo lugar, diseñamos un Muestreo Diverso Filtrado por Ruido, que filtra valores atípicos mediante estadísticas de capas profundas y construye grupos de calibración diversos conscientes del marco para garantizar rangos de cuantización estables. Experimentos exhaustivos demuestran que QuantVGGT alcanza resultados de vanguardia en diferentes puntos de referencia y anchos de bit, superando con gran margen el método de cuantización genérico anteriormente más avanzado. Destacamos que nuestro QuantVGGT de 4 bits puede ofrecer una reducción de memoria de 3.7 veces y una aceleración de 2.5 veces en la inferencia en hardware real, manteniendo una precisión de reconstrucción superior al 98% de su contraparte de precisión completa. Esto demuestra las vastas ventajas y practicidad de QuantVGGT en escenarios con recursos limitados. Nuestro código está disponible en https://github.com/wlfeng0509/QuantVGGT.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades impresionantes en la resolución de problemas complejos, beneficiándose a menudo del entrenamiento en problemas matemáticos difíciles que estimulan un razonamiento intrincado. Recientes esfuerzos han explorado la síntesis automatizada de problemas matemáticos mediante la activación de modelos propietarios o modelos de código abierto a gran escala a partir de datos iniciales o conceptos matemáticos inherentes. Sin embargo, escalar estos métodos sigue siendo un desafío debido a su alto costo computacional/de API, la complejidad de la activación y el nivel limitado de dificultad de los problemas generados. Para superar estas limitaciones, proponemos ScaleDiff, una canalización simple pero efectiva diseñada para escalar la creación de problemas difíciles. Identificamos eficientemente problemas difíciles de conjuntos de datos existentes con solo una pasada hacia adelante utilizando un modelo de pensamiento adaptativo, que puede percibir la dificultad del problema y cambiar automáticamente entre modos de "Pensamiento" y "No Pensamiento". Luego, entrenamos un generador especializado de problemas difíciles (DiffGen-8B) en estos datos filtrados, que puede producir nuevos problemas difíciles a gran escala, eliminando la necesidad de una activación compleja por instancia y sus altos costos asociados de API. El ajuste fino de Qwen2.5-Math-7B-Instruct en el conjunto de datos ScaleDiff-Math produce un aumento sustancial en el rendimiento del 11.3% en comparación con el conjunto de datos original y alcanza una precisión promedio del 65.9% en AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 y MATH500, superando a LRMs recientes y potentes como OpenThinker3. Cabe destacar que este rendimiento se logra utilizando el modelo Qwen3-8B, eficiente en costos, como profesor, demostrando que nuestra canalización puede transferir efectivamente capacidades avanzadas de razonamiento sin depender de modelos profesores más grandes y costosos. Además, observamos un fenómeno claro de escalado en el rendimiento del modelo en puntos de referencia difíciles a medida que aumenta la cantidad de problemas difíciles. Código: https://github.com/QizhiPei/ScaleDiff.
La síntesis de escenas interiores ha cobrado cada vez más importancia con el auge de la IA Embodied, que requiere entornos 3D que no solo sean visualmente realistas, sino también físicamente plausibles y funcionalmente diversos. Si bien los enfoques recientes han avanzado en la fidelidad visual, a menudo se limitan a categorías de escenas fijas, carecen de suficiente detalle a nivel de objetos y consistencia física, y tienen dificultades para alinearse con instrucciones complejas del usuario. En este trabajo, presentamos SceneWeaver, un marco agente reflexivo que unifica diversos paradigmas de síntesis de escenas mediante un refinamiento iterativo basado en herramientas. En su núcleo, SceneWeaver emplea un planificador basado en modelos de lenguaje para seleccionar entre un conjunto de herramientas extensibles de generación de escenas, que van desde modelos generativos basados en datos hasta métodos visuales y basados en LLM, guiados por una autoevaluación de la plausibilidad física, el realismo visual y la alineación semántica con la entrada del usuario. Este diseño de bucle cerrado razonar-actuar-reflexionar permite al agente identificar inconsistencias semánticas, invocar herramientas específicas y actualizar el entorno a lo largo de iteraciones sucesivas. Experimentos exhaustivos en tipos de habitaciones comunes y de vocabulario abierto demuestran que SceneWeaver no solo supera a los métodos anteriores en métricas físicas, visuales y semánticas, sino que también generaliza eficazmente a escenas complejas con instrucciones diversas, marcando un paso hacia la generación de entornos 3D de propósito general. Sitio web del proyecto: https://scene-weaver.github.io/.
Los modelos de lenguaje de gran escala (LLMs) potenciados con búsqueda han avanzado en tareas de búsqueda de información al integrar la recuperación en la generación, reduciendo la carga cognitiva de los usuarios en comparación con los sistemas de búsqueda tradicionales. Sin embargo, siguen siendo insuficientes para abordar completamente las diversas necesidades de los usuarios, lo que requiere reconocer cómo la misma consulta puede reflejar diferentes intenciones entre usuarios y entregar la información en las formas preferidas. Aunque sistemas recientes como ChatGPT y Gemini intentan personalizar utilizando los historiales de los usuarios, la evaluación sistemática de dicha personalización ha sido poco explorada. Para abordar esta brecha, proponemos BESPOKE, un punto de referencia realista para evaluar la personalización en LLMs potenciados con búsqueda. BESPOKE está diseñado para ser tanto realista, al recopilar historiales de chat y búsqueda auténticos directamente de humanos, como diagnóstico, al emparejar respuestas con puntuaciones detalladas de preferencia y retroalimentación. El punto de referencia se construye a través de una anotación humana a largo plazo y profundamente comprometida, donde los anotadores humanos contribuyeron con sus propios historiales, redactaron consultas con necesidades de información detalladas y evaluaron respuestas con puntuaciones y retroalimentación diagnóstica. Utilizando BESPOKE, realizamos análisis sistemáticos que revelan requisitos clave para una personalización efectiva en tareas de búsqueda de información, proporcionando una base para la evaluación detallada de LLMs potenciados con búsqueda personalizados. Nuestro código y datos están disponibles en https://augustinlib.github.io/BESPOKE/.
Los sistemas de recomendación tradicionales dependen de mecanismos de retroalimentación pasiva que limitan a los usuarios a elecciones simples como "me gusta" y "no me gusta". Sin embargo, estas señales de grano grueso no logran capturar las motivaciones e intenciones matizadas del comportamiento de los usuarios. A su vez, los sistemas actuales tampoco pueden distinguir qué atributos específicos de los elementos impulsan la satisfacción o insatisfacción del usuario, lo que resulta en un modelado impreciso de las preferencias. Estas limitaciones fundamentales crean una brecha persistente entre las intenciones del usuario y las interpretaciones del sistema, lo que finalmente socava la satisfacción del usuario y perjudica la efectividad del sistema. Para abordar estas limitaciones, presentamos el Feed de Recomendación Interactiva (IRF, por sus siglas en inglés), un paradigma pionero que permite comandos en lenguaje natural dentro de los feeds de recomendación convencionales. A diferencia de los sistemas tradicionales que confinan a los usuarios a una influencia conductual implícita y pasiva, el IRF otorga un control explícito y activo sobre las políticas de recomendación a través de comandos lingüísticos en tiempo real. Para respaldar este paradigma, desarrollamos RecBot, una arquitectura de doble agente en la que un Agente Analizador transforma expresiones lingüísticas en preferencias estructuradas y un Agente Planificador orquesta dinámicamente cadenas de herramientas adaptativas para el ajuste instantáneo de políticas. Para permitir una implementación práctica, empleamos la destilación de conocimiento aumentada con simulación para lograr un rendimiento eficiente mientras se mantienen capacidades de razonamiento sólidas. A través de extensos experimentos fuera de línea y en línea a largo plazo, RecBot muestra mejoras significativas tanto en la satisfacción del usuario como en los resultados comerciales.
Si bien las codificaciones posicionales explícitas como RoPE son una fuente principal de información posicional en los decodificadores de Transformers, la máscara causal también proporciona información posicional. En este trabajo, demostramos que la máscara causal puede inducir patrones dependientes de la posición en las puntuaciones de atención, incluso sin parámetros o dependencia causal en la entrada. Nuestro análisis teórico indica que el patrón de atención inducido tiende a favorecer pares de consulta-clave cercanos, reflejando el comportamiento de las codificaciones posicionales comunes. El análisis empírico confirma que los modelos entrenados exhiben el mismo comportamiento, con los parámetros aprendidos amplificando aún más estos patrones. En particular, descubrimos que la interacción entre la máscara causal y RoPE distorsiona los patrones de puntuación de atención relativa de RoPE en patrones no relativos. Observamos consistentemente este efecto en modelos de lenguaje grandes modernos, lo que sugiere la importancia de considerar la máscara causal como una fuente de información posicional junto con las codificaciones posicionales explícitas.
Los puntos de referencia evaluados por LLM se utilizan cada vez más para evaluar comportamientos complejos de modelos, pero su diseño introduce modos de fallo ausentes en los puntos de referencia convencionales basados en verdades fundamentales. Argumentamos que, sin objetivos precisos y construcciones verificables, las clasificaciones de los puntos de referencia pueden producir rankings de alta confianza que, en realidad, son en gran parte ruido. Introducimos dos mecanismos para diagnosticar estos problemas. La adherencia esquemática cuantifica cuánto del veredicto general de un juez se explica por el esquema de evaluación explícito, revelando varianza no explicada cuando los jueces se desvían de su propia rúbrica. La validez psicométrica agrega señales de consistencia interna y validez discriminante para cuantificar la incertidumbre irreducible en cualquier ejecución de evaluación. Aplicando estas herramientas a Arena-Hard Auto, encontramos incoherencia esquemática severa y colapso de factores en jueces populares: por ejemplo, varianza no explicada que supera el 90 por ciento para DeepSeek-R1-32B y correlaciones de factores por encima de 0.93 para la mayoría de los criterios. También demostramos que la agregación estilo ELO utilizada por Arena-Hard Auto colapsa y oculta la incertidumbre genuina en las clasificaciones. Nuestros resultados destacan fallos de diseño que socavan la validez y ofrecen principios prácticos para construir puntos de referencia evaluados por LLM con un alcance mejor definido y conscientes de la fiabilidad. Publicamos nuestro código en https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
A pesar de los avances constantes en la generación de imágenes a partir de diseños, los métodos actuales aún enfrentan dificultades con diseños que contienen superposiciones significativas entre cuadros delimitadores. Identificamos dos desafíos principales: (1) regiones de superposición extensas y (2) instancias superpuestas con distinción semántica mínima. A través de ejemplos cualitativos y análisis cuantitativo, demostramos cómo estos factores degradan la calidad de la generación. Para evaluar sistemáticamente este problema, introducimos OverLayScore, una métrica novedosa que cuantifica la complejidad de los cuadros delimitadores superpuestos. Nuestro análisis revela que los puntos de referencia existentes están sesgados hacia casos más simples con valores bajos de OverLayScore, lo que limita su eficacia para evaluar el rendimiento de los modelos en condiciones más desafiantes. Para cerrar esta brecha, presentamos OverLayBench, un nuevo punto de referencia que incluye anotaciones de alta calidad y una distribución equilibrada en diferentes niveles de OverLayScore. Como un primer paso hacia la mejora del rendimiento en superposiciones complejas, también proponemos CreatiLayout-AM, un modelo ajustado en un conjunto de datos de máscaras amodales curadas. En conjunto, nuestras contribuciones sientan las bases para una generación más robusta de imágenes a partir de diseños en escenarios realistas y desafiantes. Enlace del proyecto: https://mlpc-ucsd.github.io/OverLayBench.
El razonamiento en video ha surgido como una capacidad crítica para los modelos de lenguaje multimodal de gran escala (MLLMs), requiriendo que los modelos vayan más allá de la percepción estática hacia una comprensión coherente de las dinámicas temporales en escenas complejas. Sin embargo, los MLLMs existentes a menudo exhiben inconsistencia en el proceso, donde el razonamiento intermedio se desvía de las dinámicas del video incluso cuando la respuesta final es correcta, lo que socava la interpretabilidad y la robustez. Para abordar este problema, presentamos MOSS-ChatV, un marco de aprendizaje por refuerzo con una recompensa basada en Dynamic Time Warping (DTW). Esta recompensa basada en reglas alinea los trazos de razonamiento con referencias temporalmente fundamentadas, permitiendo una supervisión eficiente del proceso sin modelos de recompensa auxiliares. Además, identificamos la predicción de estados dinámicos como una medida clave del razonamiento en video y construimos MOSS-Video, un benchmark con trazos de razonamiento anotados, donde la división de entrenamiento se utiliza para ajustar MOSS-ChatV y la división reservada se utiliza para evaluación. MOSS-ChatV alcanza un 87.2\% en MOSS-Video (prueba) y mejora el rendimiento en benchmarks generales de video como MVBench y MMVU. El marco produce consistentemente mejoras en diferentes arquitecturas, incluyendo Qwen2.5-VL y Phi-2, confirmando su amplia aplicabilidad. Las evaluaciones con GPT-4o como juez muestran además que MOSS-ChatV produce trazos de razonamiento más consistentes y estables.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) enfrentan desafíos computacionales significativos al procesar contextos extensos debido a la complejidad cuadrática de la autoatención. Aunque los métodos de compresión de contexto suave, que mapean el texto de entrada a representaciones latentes más pequeñas, han mostrado resultados prometedores, su adopción en el mundo real es limitada. Las técnicas existentes suelen comprimir el contexto como una sola unidad, lo que resulta en una complejidad de compresión cuadrática y en la incapacidad de reutilizar cálculos en consultas con contextos superpuestos. En este trabajo, presentamos CompLLM, una técnica de compresión suave diseñada para su implementación práctica. En lugar de procesar el contexto de manera holística, CompLLM lo divide en segmentos y comprime cada uno de forma independiente. Esta elección de diseño simple ofrece tres propiedades críticas: eficiencia, ya que el paso de compresión escala linealmente con la longitud del contexto; escalabilidad, permitiendo que modelos entrenados en secuencias cortas (por ejemplo, 1k tokens) generalicen a contextos de 100k tokens; y reutilización, permitiendo que los segmentos comprimidos se almacenen en caché y se reutilicen en diferentes consultas. Nuestros experimentos muestran que, con una tasa de compresión de 2x, en contextos de gran longitud, CompLLM acelera el Tiempo hasta el Primer Token (TTFT) hasta 4 veces y reduce el tamaño de la caché KV en un 50%. Además, CompLLM logra un rendimiento comparable al obtenido con el contexto sin comprimir, e incluso lo supera en secuencias muy largas, demostrando su efectividad y utilidad práctica.
La efectividad de los Modelos de Lenguaje a Gran Escala (LLMs) está fuertemente influenciada por las estrategias de razonamiento, o estilos de pensamiento, empleados en sus instrucciones. Sin embargo, la interacción entre estos estilos de razonamiento, la arquitectura del modelo y el tipo de tarea sigue siendo poco comprendida. Para abordar esto, presentamos StyleBench, un benchmark integral para evaluar sistemáticamente estilos de razonamiento en diversas tareas y modelos. Evaluamos cinco estilos de razonamiento representativos, incluyendo Cadena de Pensamiento (CoT), Árbol de Pensamiento (ToT), Algoritmo de Pensamiento (AoT), Bosquejo de Pensamiento (SoT) y Cadena de Borradores (CoD) en cinco tareas de razonamiento, utilizando 15 modelos de código abierto de las principales familias (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi y DeepSeek) que van desde 270M hasta 120B parámetros. Nuestro análisis a gran escala revela que ningún estilo es universalmente óptimo. Demostramos que la eficacia de la estrategia depende en gran medida tanto de la escala del modelo como del tipo de tarea: los métodos basados en búsqueda (AoT, ToT) sobresalen en problemas abiertos pero requieren modelos a gran escala, mientras que los estilos concisos (SoT, CoD) logran ganancias radicales de eficiencia en tareas bien definidas. Además, identificamos patrones clave de comportamiento: los modelos más pequeños a menudo no siguen las instrucciones de salida y recurren a adivinar, mientras que la robustez del razonamiento emerge como una función de la escala. Nuestros hallazgos ofrecen una guía crucial para seleccionar estrategias de razonamiento óptimas basadas en restricciones específicas, y ponemos a disposición el benchmark en https://github.com/JamesJunyuGuo/Style_Bench.
Las soluciones de extremo a extremo (E2E) han surgido como un enfoque predominante para los sistemas de conducción autónoma, con los modelos Visión-Lenguaje-Acción (VLA) representando un nuevo paradigma que aprovecha el conocimiento multimodal preentrenado de los Modelos de Visión-Lenguaje (VLM) para interpretar e interactuar con entornos complejos del mundo real. Sin embargo, estos métodos siguen limitados por las restricciones del aprendizaje por imitación, que lucha por codificar inherentemente reglas físicas durante el entrenamiento. Los enfoques existentes a menudo dependen de refinamientos posteriores basados en reglas complejas, emplean aprendizaje por refuerzo que sigue siendo en gran medida limitado a la simulación, o utilizan guías de difusión que requieren cálculos de gradiente computacionalmente costosos. Para abordar estos desafíos, presentamos ReflectDrive, un marco novedoso basado en aprendizaje que integra un mecanismo de reflexión para la generación segura de trayectorias mediante difusión discreta. Primero discretizamos el espacio de conducción bidimensional para construir un libro de códigos de acciones, permitiendo el uso de Modelos de Lenguaje de Difusión preentrenados para tareas de planificación mediante ajuste fino. Central en nuestro enfoque es un mecanismo de reflexión consciente de la seguridad que realiza autocorrecciones iterativas sin cálculo de gradientes. Nuestro método comienza con la generación de trayectorias condicionadas por objetivos para modelar comportamientos de conducción multimodales. A partir de esto, aplicamos métodos de búsqueda local para identificar tokens inseguros y determinar soluciones factibles, que luego sirven como anclajes seguros para la regeneración basada en inpainting. Evaluado en el benchmark NAVSIM, ReflectDrive demuestra ventajas significativas en la generación de trayectorias críticas para la seguridad, ofreciendo una solución escalable y confiable para sistemas de conducción autónoma.
Proponemos un marco que permite a los modelos neuronales "pensar mientras escuchan" sonidos cotidianos, mejorando así el rendimiento en la clasificación de audio. Motivados por los avances recientes en las capacidades de razonamiento de los modelos de lenguaje de gran escala, abordamos dos preguntas centrales: (i) ¿cómo se puede incorporar el pensamiento en las canalizaciones existentes de clasificación de audio para habilitar el razonamiento en el espacio de categorías y mejorar el rendimiento?, y (ii) ¿se puede diseñar una nueva arquitectura desde cero para soportar tanto el pensamiento como la escalabilidad en tiempo de prueba? Demostramos que, en ambos escenarios, nuestros modelos exhiben una mayor precisión en la clasificación. Aprovechando la escalabilidad en tiempo de prueba, observamos ganancias consistentes a medida que aumenta el número de trazas muestreadas. Además, evaluamos dos modelos de razonamiento de código abierto, GPT-OSS-20B y Qwen3-14B, mostrando que, aunque estos modelos son capaces de razonamiento zero-shot, un enfoque ligero—reentrenando solo la matriz de incrustación de un modelo más pequeño y congelado como GPT-2—puede superar el rendimiento de modelos de razonamiento basados en texto con miles de millones de parámetros.
La optimización perceptual está principalmente impulsada por el objetivo de fidelidad, que impone tanto la consistencia semántica como el realismo visual general, mientras que el objetivo adversarial proporciona un refinamiento complementario al mejorar la nitidez perceptual y los detalles de grano fino. A pesar de su papel central, la correlación entre su efectividad como objetivos de optimización y su capacidad como métricas de evaluación de calidad de imagen (IQA, por sus siglas en inglés) sigue siendo poco explorada. En este trabajo, realizamos un análisis sistemático y revelamos una asimetría inesperada entre la optimización perceptual y la evaluación: las métricas de fidelidad que destacan en IQA no son necesariamente efectivas para la optimización perceptual, y esta desalineación emerge de manera más clara bajo el entrenamiento adversarial. Además, aunque los discriminadores suprimen eficazmente los artefactos durante la optimización, sus representaciones aprendidas ofrecen beneficios limitados cuando se reutilizan como inicializaciones de backbones para modelos de IQA. Más allá de esta asimetría, nuestros hallazgos demuestran además que el diseño del discriminador juega un papel decisivo en la configuración de la optimización, con arquitecturas a nivel de parches y convolucionales que proporcionan una reconstrucción de detalles más fiel que las alternativas convencionales o basadas en Transformers. Estas ideas avanzan la comprensión del diseño de funciones de pérdida y su conexión con la transferibilidad de IQA, allanando el camino para enfoques más fundamentados en la optimización perceptual.
Los modelos de audio-lenguaje de gran escala (LALMs, por sus siglas en inglés) muestran una fuerte capacidad de zero-shot en tareas de habla, lo que sugiere un potencial prometedor para el reconocimiento de emociones en el habla (SER, por sus siglas en inglés). Sin embargo, el SER en implementaciones del mundo real a menudo falla bajo un desajuste de dominio, donde los datos de origen no están disponibles y los potentes LALMs solo son accesibles a través de una API. Nos preguntamos: dado solo audio del dominio objetivo sin etiquetar y un LALM accesible únicamente a través de una API, ¿puede un modelo estudiante adaptarse para superar al LALM en el dominio objetivo? Con este fin, proponemos MI-Fuse, un marco de fusión de etiquetas desruido que complementa el LALM con un clasificador de SER entrenado en el dominio de origen como un profesor auxiliar. El marco obtiene múltiples predicciones estocásticas de ambos profesores, pondera sus distribuciones medias mediante la incertidumbre basada en información mutua y estabiliza el entrenamiento con un profesor de media móvil exponencial. Los experimentos realizados en tres conjuntos de datos públicos de emociones y seis transferencias cruzadas de dominio muestran ganancias consistentes, con el modelo estudiante superando al LALM y superando al mejor modelo de referencia en un 3.9%. Este enfoque fortalece los sistemas de habla conscientes de las emociones sin compartir datos de origen, permitiendo una adaptación realista.
Este artículo presenta la Tarjeta del Sistema Consciente de Riesgos (HASC, por sus siglas en inglés), un marco novedoso diseñado para mejorar la transparencia y la responsabilidad en el desarrollo y despliegue de sistemas de inteligencia artificial (IA). El HASC se basa en los conceptos existentes de tarjetas de modelos y tarjetas de sistemas, integrando un registro completo y dinámico del estado de seguridad y protección de un sistema de IA. El marco propone un sistema estandarizado de identificadores, incluyendo un nuevo Identificador de Riesgos de Seguridad en IA (ASH ID), para complementar identificadores de seguridad existentes como los CVEs, permitiendo una comunicación clara y consistente de fallos corregidos. Al proporcionar una única fuente de información accesible, el HASC capacita a los desarrolladores y partes interesadas para tomar decisiones más informadas sobre la seguridad de los sistemas de IA a lo largo de su ciclo de vida. Finalmente, también comparamos nuestras tarjetas de sistemas de IA propuestas con la norma ISO/IEC 42001:2023 y discutimos cómo pueden complementarse mutuamente, ofreciendo una mayor transparencia y responsabilidad en los sistemas de IA.
La detección de contenido odioso es un problema desafiante e importante. Las herramientas automatizadas, como los modelos de aprendizaje automático, pueden ayudar, pero requieren entrenamiento continuo para adaptarse al panorama en constante evolución de las redes sociales. En este trabajo, evaluamos la capacidad de ocho modelos de lenguaje de código abierto (LLM) para detectar contenido antisemita, aprovechando específicamente la definición en contexto como una guía de política. Exploramos diversas técnicas de "prompting" y diseñamos un nuevo "prompt" similar al razonamiento en cadena (CoT), denominado Guided-CoT. Guided-CoT maneja bien la política en contexto, mejorando el rendimiento en todos los modelos evaluados, independientemente de la configuración de decodificación, el tamaño del modelo o la capacidad de razonamiento. Notablemente, Llama 3.1 70B supera a GPT-3.5 ajustado específicamente. Además, examinamos los errores de los LLM e introducimos métricas para cuantificar la divergencia semántica en las justificaciones generadas por los modelos, revelando diferencias notables y comportamientos paradójicos entre los LLM. Nuestros experimentos destacan las diferencias observadas en la utilidad, explicabilidad y confiabilidad de los LLM.