Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos una mejora simple pero teóricamente fundamentada al Ajuste Fino Supervisado (SFT) para Modelos de Lenguaje de Gran Escala (LLM), abordando su limitada generalización en comparación con el aprendizaje por refuerzo (RL). Mediante análisis matemático, revelamos que los gradientes estándar de SFT codifican implícitamente una estructura de recompensa problemática que puede restringir severamente las capacidades de generalización del modelo. Para rectificar esto, proponemos el Ajuste Fino Dinámico (DFT), estabilizando las actualizaciones de gradiente para cada token al reescalar dinámicamente la función objetivo con la probabilidad de dicho token. Notablemente, este cambio de una sola línea de código supera significativamente al SFT estándar en múltiples benchmarks desafiantes y modelos base, demostrando una generalización considerablemente mejorada. Además, nuestro enfoque muestra resultados competitivos en entornos de RL offline, ofreciendo una alternativa efectiva pero más simple. Este trabajo conecta la teoría con soluciones prácticas, avanzando sustancialmente el rendimiento del SFT. El código estará disponible en https://github.com/yongliang-wu/DFT.
Los Modelos de Lenguaje de Gran Escala (LLMs) auto-evolutivos ofrecen un camino escalable hacia la superinteligencia al generar, refinar y aprender de manera autónoma a partir de sus propias experiencias. Sin embargo, los métodos existentes para entrenar dichos modelos aún dependen en gran medida de tareas y etiquetas curadas por humanos, típicamente mediante ajuste fino o aprendizaje por refuerzo, lo que representa un cuello de botella fundamental para avanzar los sistemas de IA hacia capacidades que superen la inteligencia humana. Para superar esta limitación, presentamos R-Zero, un marco completamente autónomo que genera sus propios datos de entrenamiento desde cero. Partiendo de un único LLM base, R-Zero inicializa dos modelos independientes con roles distintos: un Desafiante y un Resolvedor. Estos modelos se optimizan por separado y co-evolucionan a través de la interacción: el Desafiante es recompensado por proponer tareas cerca del límite de la capacidad del Resolvedor, y el Resolvedor es recompensado por resolver tareas cada vez más desafiantes planteadas por el Desafiante. Este proceso genera un currículo automejorado y dirigido sin necesidad de tareas y etiquetas preexistentes. Empíricamente, R-Zero mejora sustancialmente la capacidad de razonamiento en diferentes LLMs base, por ejemplo, aumentando el Qwen3-4B-Base en +6.49 en benchmarks de razonamiento matemático y +7.54 en benchmarks de razonamiento de dominio general.
Presentamos Genie Envisioner (GE), una plataforma unificada de base mundial para la manipulación robótica que integra el aprendizaje de políticas, la evaluación y la simulación dentro de un marco generativo de video único. En su núcleo, GE-Base es un modelo de difusión de video a gran escala condicionado por instrucciones que captura la dinámica espacial, temporal y semántica de las interacciones robóticas del mundo real en un espacio latente estructurado. Sobre esta base, GE-Act mapea representaciones latentes a trayectorias de acción ejecutables a través de un decodificador ligero de emparejamiento de flujo, permitiendo una inferencia de políticas precisa y generalizable en diversas implementaciones con supervisión mínima. Para apoyar la evaluación y el entrenamiento escalables, GE-Sim funciona como un simulador neuronal condicionado por acciones, produciendo desarrollos de alta fidelidad para el desarrollo de políticas en bucle cerrado. La plataforma está además equipada con EWMBench, un conjunto de benchmarks estandarizados que miden la fidelidad visual, la consistencia física y la alineación entre instrucciones y acciones. Juntos, estos componentes establecen a Genie Envisioner como una base escalable y práctica para la inteligencia encarnada de propósito general impulsada por instrucciones. Todo el código, modelos y benchmarks serán liberados públicamente.
Aunque los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés) exhiben fuertes habilidades perceptivas y un razonamiento visual impresionante, tienen dificultades para prestar atención a los detalles y planificar acciones precisas en entornos complejos y dinámicos, lo que resulta en un rendimiento subóptimo. Las tareas del mundo real suelen requerir interacciones complejas, razonamiento espacial avanzado, planificación a largo plazo y un refinamiento continuo de estrategias, lo que generalmente implica comprender las reglas físicas del escenario objetivo. Sin embargo, evaluar estas capacidades en escenarios del mundo real suele ser prohibitivamente costoso. Para cerrar esta brecha, presentamos DeepPHY, un marco de evaluación novedoso diseñado para evaluar sistemáticamente la comprensión y el razonamiento de los VLMs sobre principios físicos fundamentales a través de una serie de entornos simulados desafiantes. DeepPHY integra múltiples entornos de razonamiento físico con distintos niveles de dificultad e incorpora métricas de evaluación detalladas. Nuestra evaluación revela que incluso los VLMs más avanzados tienen dificultades para traducir el conocimiento físico descriptivo en un control predictivo preciso.
A pesar de los rápidos avances en la generación de contenido 3D, la evaluación de la calidad de los activos 3D generados sigue siendo un desafío. Los métodos existentes se basan principalmente en métricas basadas en imágenes y operan únicamente a nivel de objeto, lo que limita su capacidad para capturar la coherencia espacial, la autenticidad de los materiales y los detalles locales de alta fidelidad. 1) Para abordar estos desafíos, presentamos Hi3DEval, un marco de evaluación jerárquico diseñado específicamente para contenido generativo 3D. Combina la evaluación tanto a nivel de objeto como a nivel de parte, permitiendo evaluaciones holísticas en múltiples dimensiones, así como un análisis de calidad detallado. Además, extendemos la evaluación de texturas más allá de la apariencia estética al evaluar explícitamente el realismo de los materiales, centrándonos en atributos como el albedo, la saturación y el aspecto metálico. 2) Para respaldar este marco, construimos Hi3DBench, un conjunto de datos a gran escala que incluye diversos activos 3D y anotaciones de alta calidad, acompañado de una canalización de anotación confiable basada en múltiples agentes. Además, proponemos un sistema de puntuación automatizado consciente del 3D basado en representaciones híbridas 3D. Específicamente, aprovechamos representaciones basadas en video para evaluaciones a nivel de objeto y de materiales, mejorando el modelado de la consistencia espacio-temporal, y empleamos características 3D preentrenadas para la percepción a nivel de parte. Experimentos extensos demuestran que nuestro enfoque supera a las métricas basadas en imágenes existentes en el modelado de características 3D y logra una alineación superior con las preferencias humanas, proporcionando una alternativa escalable a las evaluaciones manuales. La página del proyecto está disponible en https://zyh482.github.io/Hi3DEval/.
Los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) que utilizan Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) muestran un gran potencial para la comprensión de documentos complejos, aunque su desarrollo se ve gravemente obstaculizado por una evaluación inadecuada. Los puntos de referencia actuales suelen centrarse en partes específicas del sistema RAG de documentos y emplean datos sintéticos con etiquetas de verdad fundamental y evidencia incompletas, por lo que no reflejan los cuellos de botella y desafíos del mundo real. Para superar estas limitaciones, presentamos Double-Bench: un nuevo sistema de evaluación a gran escala, multilingüe y multimodal capaz de producir una evaluación detallada de cada componente dentro de los sistemas RAG de documentos. Este sistema incluye 3,276 documentos (72,880 páginas) y 5,168 consultas de uno o varios saltos en 6 idiomas y 4 tipos de documentos, con soporte dinámico actualizado para posibles problemas de contaminación de datos. Las consultas se basan en páginas de evidencia escaneadas exhaustivamente y verificadas por expertos humanos para garantizar la máxima calidad y completitud. Nuestros experimentos exhaustivos con 9 modelos de incrustación de última generación, 4 MLLMs y 4 marcos RAG de documentos de extremo a extremo demuestran que la brecha entre los modelos de incrustación de texto y visuales se está reduciendo, destacando la necesidad de construir modelos de recuperación de documentos más robustos. Nuestros hallazgos también revelan el dilema de sobreconfianza dentro de los marcos RAG de documentos actuales, que tienden a proporcionar respuestas incluso sin apoyo de evidencia. Esperamos que nuestro Double-Bench, completamente de código abierto, proporcione una base rigurosa para futuras investigaciones en sistemas RAG de documentos avanzados. Planeamos recuperar corpus oportunos y publicar nuevos puntos de referencia anualmente.
El bienestar abarca dimensiones mentales, físicas y sociales esenciales para el crecimiento personal y la toma de decisiones informadas en la vida. A medida que las personas consultan cada vez más a los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para comprender el bienestar, surge un desafío clave: ¿Pueden los LLMs generar explicaciones que no solo sean precisas, sino también adaptadas a audiencias diversas? Las explicaciones de alta calidad requieren tanto corrección factual como la capacidad de satisfacer las expectativas de usuarios con distintos niveles de experiencia. En este trabajo, construimos un conjunto de datos a gran escala que comprende 43,880 explicaciones de 2,194 conceptos de bienestar, generadas por diez LLMs diversos. Introducimos un marco de evaluación guiado por principios que utiliza LLMs como jueces, empleando jueces duales para evaluar la calidad de las explicaciones. Además, demostramos que el ajuste fino de un LLM de código abierto mediante Ajuste Fino Supervisado (SFT) y Optimización Directa de Preferencias (DPO) puede mejorar significativamente la calidad de las explicaciones generadas. Nuestros resultados revelan: (1) Los jueces LLM propuestos se alinean bien con las evaluaciones humanas; (2) la calidad de las explicaciones varía significativamente entre modelos, audiencias y categorías; y (3) los modelos ajustados con DPO y SFT superan a sus contrapartes más grandes, demostrando la efectividad del aprendizaje basado en preferencias para tareas especializadas de explicación.
Recientemente, los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) se han convertido gradualmente en un foco de investigación debido a su destacado rendimiento en tareas complejas. Entre ellos, DeepSeek R1 ha captado una atención significativa por su excepcional desempeño y su naturaleza de código abierto, impulsando avances en la investigación de LRMs de estilo R1. A diferencia de los Modelos de Lenguaje a Gran Escala (LLMs) tradicionales, estos modelos mejoran las capacidades de deducción lógica y toma de decisiones durante el razonamiento mediante la incorporación de mecanismos como cadenas de pensamiento largas y autorreflexión a través del aprendizaje por refuerzo. Sin embargo, con la aplicación generalizada de estos modelos, el problema del sobrepensamiento ha surgido gradualmente. Específicamente, al generar respuestas, estos modelos suelen construir cadenas de razonamiento excesivamente largas con pasos redundantes o repetitivos, lo que reduce la eficiencia del razonamiento y puede afectar la precisión de la respuesta final. Para abordar esto, se han propuesto diversos métodos de razonamiento eficiente, con el objetivo de reducir la longitud de las rutas de razonamiento sin comprometer el rendimiento del modelo ni su capacidad de razonamiento. Al revisar sistemáticamente los avances actuales en el campo de los métodos de razonamiento eficiente, categorizamos los trabajos existentes en dos direcciones principales basadas en la optimización de un solo modelo versus la colaboración entre modelos: (1) Razonamiento Eficiente con un Solo Modelo, que se centra en mejorar la eficiencia del razonamiento de modelos individuales; y (2) Razonamiento Eficiente con Colaboración de Modelos, que explora la optimización de rutas de razonamiento mediante la colaboración entre múltiples modelos. Además, mantenemos un repositorio público en GitHub que rastrea los últimos avances en métodos de razonamiento eficiente.
Este artículo presenta un sistema multifuncional de síntesis de voz que integra la clonación de voz y la síntesis de voz con control emocional dentro de un marco unificado. El objetivo de este trabajo es abordar desafíos de larga data en la generación de voz altamente expresiva, controlable y natural que preserve fielmente la identidad del hablante en diversos contextos lingüísticos y emocionales. Nuestro enfoque introduce un mecanismo efectivo de desentrelazamiento de hablante-emoción con aprendizaje contrastivo en lote, permitiendo la manipulación independiente de la identidad del hablante y el estilo emocional, así como un método de integración de incrustaciones emocionales rotacionales para un control suave de las emociones. Para respaldar un entrenamiento y evaluación exhaustivos, construimos CSEMOTIONS, un conjunto de datos de voz emocional de alta calidad que contiene 10 horas de habla en mandarín de seis hablantes profesionales en siete categorías emocionales. Experimentos extensos demuestran que nuestro sistema, Marco-Voice, logra mejoras sustanciales tanto en métricas objetivas como subjetivas. Se llevaron a cabo evaluaciones y análisis exhaustivos, cuyos resultados muestran que MarcoVoice ofrece un rendimiento competitivo en términos de claridad del habla y riqueza emocional, representando un avance significativo en el campo de la síntesis de voz neural expresiva.
Los agentes autónomos que operan computadoras a través de Interfaces Gráficas de Usuario (GUIs) a menudo enfrentan dificultades en eficiencia y confiabilidad al realizar tareas complejas y de largo plazo. Si bien el uso de planificadores puede mejorar la descomposición de tareas, estos agentes siguen limitados por las restricciones inherentes de ejecutar todas las acciones mediante manipulación de GUIs, lo que resulta en fragilidad e ineficiencia. En este trabajo, presentamos un paradigma más robusto y flexible: permitir que los agentes utilicen la codificación como una acción mejorada. Introducimos CoAct-1, un sistema multiagente novedoso que combina de manera sinérgica el control basado en GUI con la ejecución programática directa. CoAct-1 incluye un Orquestador que delega dinámicamente subtareas a un Operador de GUI convencional o a un agente Programador especializado, capaz de escribir y ejecutar scripts en Python o Bash. Este enfoque híbrido permite al agente evitar secuencias de acciones ineficientes en la GUI para tareas como gestión de archivos y procesamiento de datos, mientras sigue aprovechando la interacción visual cuando es necesario. Evaluamos nuestro sistema en el desafiante benchmark OSWorld, donde CoAct-1 alcanza una nueva tasa de éxito de vanguardia del 60,76%, superando significativamente a métodos anteriores. Además, nuestro enfoque mejora drásticamente la eficiencia, reduciendo el número promedio de pasos necesarios para completar una tarea a solo 10,15, en comparación con los 15 de los principales agentes basados en GUI. Nuestros resultados demuestran que integrar la codificación como una acción central ofrece un camino más potente, eficiente y escalable hacia la automatización generalizada de computadoras.
Los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) han experimentado un crecimiento notable, demostrando capacidades formidables para manejar tareas multimodales complejas con un rendimiento excepcional. Investigaciones recientes han destacado la tendencia de los modelos de lenguaje de gran escala a aceptar pasivamente entradas defectuosas, lo que a menudo resulta en razonamientos infructuosos sobre indicaciones inválidas. Sin embargo, la misma pregunta crítica de si los LMMs pueden detectar y examinar activamente entradas erróneas sigue sin explorarse. Para abordar esta brecha, presentamos el Marco de Evaluación de la Capacidad de Escrutinio de Entradas (ISEval), que abarca siete categorías de premisas defectuosas y tres métricas de evaluación. Nuestra evaluación exhaustiva de diez LMMs avanzados ha identificado hallazgos clave. La mayoría de los modelos tienen dificultades para detectar activamente premisas textuales defectuosas sin orientación, lo que refleja una fuerte dependencia de indicaciones explícitas para la identificación de errores en las premisas. El tipo de error afecta el rendimiento: los modelos sobresalen en la identificación de falacias lógicas, pero luchan con errores lingüísticos superficiales y ciertos defectos condicionales. La confianza en la modalidad varía: Gemini 2.5 pro y Claude Sonnet 4 equilibran la información visual y textual, mientras que aya-vision-8b depende en exceso del texto en casos de conflicto. Estas ideas subrayan la necesidad urgente de mejorar la verificación proactiva de la validez de las entradas en los LMMs y ofrecen nuevas perspectivas para mitigar el problema. El código está disponible en https://github.com/MLGroupJLU/LMM_ISEval.
Un soporte al cliente efectivo requiere no solo la resolución precisa de problemas, sino también una comunicación estructurada y empática alineada con estándares profesionales. Sin embargo, los conjuntos de datos de diálogo existentes a menudo carecen de orientación estratégica, y los datos de servicio del mundo real son difíciles de acceder y anotar. Para abordar esto, introducimos la tarea de Conversación de Soporte al Cliente (CSC, por sus siglas en inglés), destinada a capacitar a los agentes de servicio al cliente para responder utilizando estrategias de soporte bien definidas. Proponemos un marco estructurado de CSC basado en las directrices COPC, definiendo cinco etapas conversacionales y doce estrategias para guiar interacciones de alta calidad. Basándonos en esto, construimos CSConv, un conjunto de datos de evaluación de 1,855 conversaciones reales entre clientes y agentes reescritas utilizando LLMs para reflejar el uso deliberado de estrategias, y anotadas en consecuencia. Además, desarrollamos un enfoque de juego de roles que simula conversaciones ricas en estrategias utilizando roles impulsados por LLMs alineados con el marco CSC, resultando en el conjunto de datos de entrenamiento RoleCS. Los experimentos muestran que el ajuste fino de LLMs potentes en RoleCS mejora significativamente su capacidad para generar respuestas de alta calidad y alineadas con estrategias en CSConv. Las evaluaciones humanas confirman además mejoras en la resolución de problemas. Todo el código y los datos estarán disponibles públicamente en https://github.com/aliyun/qwen-dianjin.
La segmentación de objetos en video (VOS, por sus siglas en inglés) tiene como objetivo segmentar objetos específicos a lo largo de un video. Aunque los métodos más avanzados han logrado un rendimiento impresionante (por ejemplo, más del 90% en J&F) en benchmarks existentes como DAVIS y YouTube-VOS, estos conjuntos de datos contienen principalmente objetos destacados, dominantes y aislados, lo que limita su generalización a escenarios del mundo real. Para avanzar en la VOS hacia entornos más realistas, se introdujo coMplex video Object SEgmentation (MOSEv1) para facilitar la investigación en escenas complejas. Basándonos en las fortalezas y limitaciones de MOSEv1, presentamos MOSEv2, un conjunto de datos significativamente más desafiante diseñado para impulsar los métodos de VOS en condiciones del mundo real. MOSEv2 consta de 5,024 videos y más de 701,976 máscaras de alta calidad para 10,074 objetos en 200 categorías. En comparación con su predecesor, MOSEv2 introduce una complejidad de escena mucho mayor, incluyendo desapariciones y reapariciones más frecuentes de objetos, oclusiones severas y aglomeraciones, objetos más pequeños, así como una variedad de nuevos desafíos como condiciones climáticas adversas (por ejemplo, lluvia, nieve, niebla), escenas con poca luz (por ejemplo, nocturnas, submarinas), secuencias de múltiples tomas, objetos camuflados, objetivos no físicos (por ejemplo, sombras, reflejos), escenarios que requieren conocimiento externo, entre otros. Evaluamos 20 métodos representativos de VOS bajo 5 configuraciones diferentes y observamos caídas consistentes en el rendimiento. Por ejemplo, SAM2 cae del 76.4% en MOSEv1 a solo el 50.9% en MOSEv2. Además, evaluamos 9 métodos de seguimiento de objetos en video y encontramos disminuciones similares, lo que demuestra que MOSEv2 presenta desafíos en diversas tareas. Estos resultados resaltan que, a pesar de la alta precisión en los conjuntos de datos existentes, los métodos actuales de VOS aún tienen dificultades frente a las complejidades del mundo real. MOSEv2 está disponible públicamente en https://MOSE.video.
Los modelos de lenguaje de gran escala (LLMs) han demostrado capacidades de razonamiento impresionantes en una amplia gama de tareas complejas. Sin embargo, mejorar estas capacidades mediante el entrenamiento posterior sigue siendo intensivo en recursos, particularmente en términos de datos y costos computacionales. Aunque esfuerzos recientes han buscado mejorar la eficiencia de muestreo mediante la curación selectiva de datos, los métodos existentes a menudo dependen de estrategias heurísticas o específicas de tareas que dificultan la escalabilidad. En este trabajo, presentamos InfiAlign, un marco de entrenamiento posterior escalable y eficiente en muestreo que integra el ajuste fino supervisado (SFT) con la Optimización Directa de Preferencias (DPO) para alinear LLMs y mejorar su razonamiento. En el núcleo de InfiAlign se encuentra una robusta canalización de selección de datos que cura automáticamente datos de alineación de alta calidad a partir de conjuntos de datos de razonamiento de código abierto utilizando métricas de calidad multidimensionales. Esta canalización permite ganancias significativas en el rendimiento mientras reduce drásticamente los requisitos de datos y sigue siendo extensible a nuevas fuentes de datos. Cuando se aplica al modelo Qwen2.5-Math-7B-Base, nuestro modelo SFT logra un rendimiento comparable con DeepSeek-R1-Distill-Qwen-7B, utilizando solo aproximadamente el 12% de los datos de entrenamiento, y demuestra una fuerte generalización en diversas tareas de razonamiento. Se obtienen mejoras adicionales mediante la aplicación de DPO, con avances particularmente notables en tareas de razonamiento matemático. El modelo logra una mejora promedio del 3.89% en los benchmarks AIME 24/25. Nuestros resultados resaltan la efectividad de combinar la selección de datos basada en principios con el entrenamiento posterior en todas las etapas, ofreciendo una solución práctica para alinear modelos de razonamiento de gran escala de manera escalable y eficiente en datos. Los puntos de control del modelo están disponibles en https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
La generación realista de hebras de cabello es crucial para aplicaciones como gráficos por computadora y realidad virtual. Si bien los modelos de difusión pueden generar peinados a partir de texto o imágenes, estas entradas carecen de precisión y facilidad de uso. En su lugar, proponemos el primer modelo de generación de hebras basado en bocetos, que ofrece un control más fino mientras mantiene la facilidad de uso. Nuestro marco aborda desafíos clave, como modelar interacciones complejas entre hebras y diversos patrones de bocetos, a través de dos innovaciones principales: una estrategia de aumento de resolución de hebras aprendible que codifica hebras 3D en espacios latentes multi-escala, y un mecanismo de condicionamiento adaptativo multi-escala que utiliza un transformador con cabezales de difusión para garantizar consistencia entre niveles de granularidad. Los experimentos en varios conjuntos de datos de referencia muestran que nuestro método supera a los enfoques existentes en realismo y precisión. Los resultados cualitativos confirman aún más su efectividad. El código se publicará en [GitHub](https://github.com/fighting-Zhang/StrandDesigner).
La compresión de imágenes basada en difusión ha demostrado un rendimiento perceptual impresionante. Sin embargo, presenta dos inconvenientes críticos: (1) una latencia de decodificación excesiva debido al muestreo en múltiples pasos, y (2) una fidelidad deficiente resultante de una dependencia excesiva en los priors generativos. Para abordar estos problemas, proponemos SODEC, un novedoso modelo de compresión de imágenes de difusión en un solo paso. Argumentamos que, en la compresión de imágenes, un latente suficientemente informativo hace innecesario el refinamiento en múltiples pasos. Basándonos en esta idea, aprovechamos un modelo preentrenado basado en VAE para producir latentes ricos en información y reemplazamos el proceso iterativo de eliminación de ruido con una decodificación en un solo paso. Al mismo tiempo, para mejorar la fidelidad, introducimos el módulo de guía de fidelidad, fomentando una salida que sea fiel a la imagen original. Además, diseñamos la estrategia de entrenamiento de reducción de tasa para permitir un entrenamiento efectivo bajo tasas de bits extremadamente bajas. Experimentos exhaustivos muestran que SODEC supera significativamente a los métodos existentes, logrando un rendimiento superior en la relación tasa-distorsión-percepción. Además, en comparación con los modelos de compresión basados en difusión anteriores, SODEC mejora la velocidad de decodificación en más de 20 veces. El código está disponible en: https://github.com/zhengchen1999/SODEC.
Los Modelos de Lenguaje de Razonamiento (R-LLMs, por sus siglas en inglés) han avanzado significativamente en tareas de razonamiento complejo, pero a menudo enfrentan dificultades con la factualidad, generando sustancialmente más alucinaciones que sus contrapartes no orientadas al razonamiento en benchmarks de factualidad de formato largo. Sin embargo, extender el Aprendizaje por Refuerzo en línea (RL, por sus siglas en inglés), un componente clave en los avances recientes de los R-LLMs, al ámbito de la factualidad de formato largo presenta varios desafíos únicos debido a la falta de métodos de verificación confiables. Trabajos previos han utilizado marcos de evaluación automática de factualidad, como FActScore, para curar datos de preferencia en el entorno de RL fuera de línea. No obstante, hemos observado que el uso directo de estos métodos como recompensa en RL en línea conduce a la manipulación de recompensas de múltiples maneras, como la producción de respuestas menos detalladas o relevantes. Proponemos una nueva función de recompensa que considera simultáneamente la precisión factual, el nivel de detalle de la respuesta y la relevancia de la respuesta, y aplica RL en línea para aprender un razonamiento factual de alta calidad. Evaluado en seis benchmarks de factualidad de formato largo, nuestro modelo de razonamiento factual logra una reducción promedio de 23.1 puntos porcentuales en la tasa de alucinación, un aumento del 23% en el nivel de detalle de las respuestas y ninguna degradación en la utilidad general de las respuestas.
La Segmentación de Expresiones de Referencia (RES, por sus siglas en inglés) tiene como objetivo segmentar regiones de imágenes especificadas mediante expresiones referenciales y ha ganado popularidad con el auge de los modelos grandes multimodales (MLLMs, por sus siglas en inglés). Si bien los MLLMs destacan en la comprensión semántica, su paradigma de generación de tokens enfrenta dificultades en la predicción densa a nivel de píxeles. Los métodos existentes de RES acoplan los MLLMs con el Segment Anything Model (SAM), un modelo con 632 millones de parámetros, o adoptan pipelines ligeros sin SAM que sacrifican precisión. Para abordar el equilibrio entre rendimiento y costo, proponemos específicamente MLLMSeg, un marco novedoso que aprovecha al máximo las características visuales detalladas inherentes codificadas en el codificador visual del MLLM sin introducir un codificador visual adicional. Además, proponemos un módulo de fusión de características mejorado en detalles y consistente semánticamente (DSFF, por sus siglas en inglés) que integra completamente la característica visual relacionada con los detalles con la característica semántica generada por el modelo de lenguaje grande (LLM, por sus siglas en inglés) del MLLM. Finalmente, establecemos un decodificador de máscara ligero con solo 34 millones de parámetros que aprovecha óptimamente las características espaciales detalladas del codificador visual y las características semánticas del LLM para lograr una predicción precisa de máscaras. Experimentos extensos demuestran que nuestro método supera generalmente a los competidores basados en SAM y sin SAM, logrando un mejor equilibrio entre rendimiento y costo. El código está disponible en https://github.com/jcwang0602/MLLMSeg.
Los modelos de visión-lenguaje (VLMs) existentes, ya sean generalistas o especializados, siguen limitados por su escala de parámetros, carecen de capacidades robustas de autocorrección y tienen un rendimiento inferior en tareas que involucran contextos visuales extensos y razonamiento complejo, lo que resulta en un desempeño subóptimo en tareas basadas en documentos. Para abordar esto, proponemos MACT, un marco de Colaboración Multi-Agente con escalado en tiempo de prueba, diseñado para la comprensión visual de documentos y la respuesta a preguntas visuales (VQA). Este marco consta de cuatro agentes de pequeña escala distintos, es decir, agentes de planificación, ejecución, juicio y respuesta, con roles claramente definidos y una colaboración efectiva. Cabe destacar que el agente de juicio verifica exclusivamente la corrección y redirige a los agentes anteriores para revisiones, superando las estrategias de corrección convencionales. Para expandir aún más los límites de capacidad del marco, proponemos un modelado de recompensas mixtas que equilibra las habilidades específicas de los agentes y la colaboración global, así como un escalado híbrido en tiempo de prueba por agente, que personaliza diferentes estrategias de escalado para cada agente según sus funciones. Evaluado en puntos de referencia que abarcan configuraciones basadas en documentos y no basadas en documentos, nuestro MACT muestra un rendimiento superior con una escala de parámetros más pequeña sin sacrificar la capacidad para tareas generales y matemáticas. Especialmente, destaca en puntos de referencia que involucran contextos visuales extensos y razonamientos complicados. Las tres variantes de MACT ocupan consistentemente las tres primeras posiciones en puntajes promedio, liderando en 13 de los 15 puntos de referencia. El código estará disponible en: https://github.com/YU-deep/MACT.git.
El rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es significativamente sensible a la posición contextual de la información en la entrada. Para investigar el mecanismo detrás de este sesgo posicional, nuestros extensos experimentos revelan un fenómeno consistente que denominamos la cuenca de atención: cuando se presenta una secuencia de elementos estructurados (por ejemplo, documentos recuperados o ejemplos de pocos disparos), los modelos asignan sistemáticamente una mayor atención a los elementos al principio y al final de la secuencia, mientras descuidan aquellos en el medio. De manera crucial, nuestro análisis revela además que asignar una mayor atención a la información crítica es clave para mejorar el rendimiento del modelo. Basándonos en estas observaciones, presentamos Reordenamiento Guiado por Atención (AttnRank), un marco de trabajo de dos etapas que (i) estima las preferencias de atención posicional intrínsecas de un modelo utilizando un pequeño conjunto de calibración, y (ii) reordena los documentos recuperados o los ejemplos de pocos disparos para alinear el contenido más relevante con estas posiciones de alta atención. AttnRank es un método independiente del modelo, sin necesidad de entrenamiento y de tipo plug-and-play, con un mínimo costo computacional. Los experimentos en tareas de preguntas y respuestas de múltiples saltos (multi-hop QA) y aprendizaje en contexto con pocos disparos demuestran que AttnRank logra mejoras sustanciales en 10 modelos de lenguaje de gran escala con diversas arquitecturas y escalas, sin modificar los parámetros del modelo ni los procedimientos de entrenamiento.
Este artículo presenta un punto de referencia integral para evaluar cómo los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) responden a los shibboleths lingüísticos: marcadores lingüísticos sutiles que pueden revelar inadvertidamente atributos demográficos como el género, la clase social o el origen regional. A través de simulaciones de entrevistas cuidadosamente construidas utilizando 100 pares de preguntas-respuestas validadas, demostramos cómo los LLMs penalizan sistemáticamente ciertos patrones lingüísticos, particularmente el lenguaje de atenuación, a pesar de una calidad de contenido equivalente. Nuestro punto de referencia genera variaciones lingüísticas controladas que aíslan fenómenos específicos mientras mantienen la equivalencia semántica, lo que permite la medición precisa del sesgo demográfico en los sistemas de evaluación automatizada. Validamos nuestro enfoque en múltiples dimensiones lingüísticas, mostrando que las respuestas atenuadas reciben calificaciones un 25.6% más bajas en promedio, y demostramos la efectividad del punto de referencia para identificar sesgos específicos de los modelos. Este trabajo establece un marco fundamental para detectar y medir la discriminación lingüística en los sistemas de inteligencia artificial, con amplias aplicaciones para la equidad en contextos de toma de decisiones automatizada.
La vinculación multimodal de entidades desempeña un papel crucial en una amplia gama de aplicaciones. Los avances recientes en los métodos basados en modelos de lenguaje de gran escala se han convertido en el paradigma dominante para esta tarea, aprovechando eficazmente tanto las modalidades textuales como visuales para mejorar el rendimiento. A pesar de su éxito, estos métodos aún enfrentan dos desafíos, que incluyen la incorporación innecesaria de datos de imágenes en ciertos escenarios y la dependencia exclusiva de una extracción única de características visuales, lo que puede socavar su efectividad y precisión. Para abordar estos desafíos, proponemos un marco novedoso basado en modelos de lenguaje de gran escala para la tarea de vinculación multimodal de entidades, denominado Reflexiones Colaborativas Intra e Intermodales. Este marco prioriza el aprovechamiento de la información textual para abordar la tarea. Cuando el texto por sí solo es insuficiente para vincular la entidad correcta a través de evaluaciones intra e intermodales, emplea una estrategia iterativa de múltiples rondas que integra pistas visuales clave de diversos aspectos de la imagen para apoyar el razonamiento y mejorar la precisión de la coincidencia. Experimentos exhaustivos en tres conjuntos de datos públicos ampliamente utilizados demuestran que nuestro marco supera consistentemente los métodos actuales más avanzados en la tarea, logrando mejoras del 3.2%, 5.1% y 1.6%, respectivamente. Nuestro código está disponible en https://github.com/ziyan-xiaoyu/I2CR/.
La alineación y la uniformidad son principios fundamentales dentro del dominio del aprendizaje contrastivo. En los sistemas de recomendación, trabajos previos han establecido que optimizar la función de pérdida del Ranking Personalizado Bayesiano (BPR, por sus siglas en inglés) contribuye a los objetivos de alineación y uniformidad. Específicamente, la alineación busca acercar las representaciones de usuarios y elementos que interactúan, mientras que la uniformidad exige una distribución uniforme de los embeddings de usuarios y elementos en una hiperesfera unitaria. Este estudio revisa las propiedades de alineación y uniformidad en el contexto de los sistemas de recomendación multimodal, revelando una tendencia en los modelos existentes a priorizar la uniformidad en detrimento de la alineación. Nuestra hipótesis desafía la suposición convencional de un tratamiento equitativo de los elementos mediante una función de pérdida de uniformidad, proponiendo un enfoque más matizado en el que los elementos con atributos multimodales similares convergen hacia representaciones próximas dentro del manifold hiperesférico. En concreto, aprovechamos la similitud inherente entre los datos multimodales de los elementos para calibrar su distribución de uniformidad, induciendo así una fuerza repulsiva más pronunciada entre entidades disímiles dentro del espacio de embeddings. Un análisis teórico esclarece la relación entre esta función de pérdida de uniformidad calibrada y la función de uniformidad convencional. Además, para mejorar la fusión de características multimodales, introducimos un método de B\'ezier esférico diseñado para integrar un número arbitrario de modalidades, asegurando que las características fusionadas resultantes estén restringidas al mismo manifold hiperesférico. Las evaluaciones empíricas realizadas en cinco conjuntos de datos del mundo real respaldan la superioridad de nuestro enfoque frente a las líneas base competidoras. También demostramos que los métodos propuestos pueden lograr un aumento de hasta un 5.4% en el rendimiento de NDCG@20 mediante la integración de características extraídas por MLLM. El código fuente está disponible en: https://github.com/enoche/CM3.
La redacción de Información de Identificación Personal (PII, por sus siglas en inglés) en texto no estructurado es fundamental para garantizar la privacidad de los datos en dominios regulados. Si bien los enfoques anteriores se han basado en sistemas basados en reglas y modelos de Reconocimiento de Entidades Nombradas (NER) específicos del dominio, estos métodos no logran generalizarse en diferentes formatos y contextos. Los avances recientes en Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ofrecen una alternativa prometedora, aunque el impacto de las decisiones arquitectónicas y de entrenamiento en el rendimiento de la redacción sigue siendo poco explorado. Los LLMs han demostrado un fuerte desempeño en tareas que requieren comprensión contextual del lenguaje, incluida la redacción de PII en texto de forma libre. Trabajos previos sugieren que, con la adaptación adecuada, los LLMs pueden convertirse en aprendices efectivos de privacidad contextual. Sin embargo, las consecuencias de las decisiones arquitectónicas y de entrenamiento para la Redacción de PII aún no se han explorado suficientemente. En este trabajo, presentamos un análisis exhaustivo de los LLMs como sistemas de Redacción de PII que preservan la privacidad. Evaluamos una variedad de arquitecturas de LLMs y estrategias de entrenamiento para determinar su efectividad en la Redacción de PII. Nuestro análisis mide el rendimiento de la redacción, la preservación semántica y la filtración de PII, y compara estos resultados con la latencia y el costo computacional. Los resultados proporcionan orientación práctica para configurar redactores basados en LLMs que sean precisos, eficientes y conscientes de la privacidad. Para apoyar la reproducibilidad y la implementación en el mundo real, lanzamos PRvL, un conjunto de modelos ajustados y herramientas de evaluación de código abierto para la Redacción de PII de propósito general. PRvL está construido completamente sobre LLMs de código abierto y admite múltiples configuraciones de inferencia para flexibilidad y cumplimiento. Está diseñado para ser fácilmente personalizable para diferentes dominios y completamente operable en entornos seguros y autogestionados. Esto permite a los propietarios de datos realizar redacciones sin depender de servicios de terceros o exponer contenido sensible más allá de su propia infraestructura.
Los sistemas de Traducción Simultánea de Voz (SimulST) procesan audio en tiempo real mientras emiten simultáneamente texto o voz traducida. Dichos sistemas enfrentan el desafío significativo de equilibrar la calidad de la traducción y la latencia. Introducimos una estrategia para optimizar este equilibrio: esperar más entrada solo si se obtiene información al hacerlo. Basados en esta estrategia, presentamos Regularized Entropy INformation Adaptation (REINA), una nueva función de pérdida para entrenar una política adaptativa utilizando un modelo de traducción no simultáneo existente. Derivamos REINA a partir de principios de teoría de la información y demostramos que REINA ayuda a mejorar la frontera de Pareto reportada en el equilibrio latencia/calidad en comparación con trabajos previos. Utilizando REINA, entrenamos un modelo SimulST en francés, español y alemán, tanto desde como hacia el inglés. Entrenando únicamente con datos de código abierto o generados sintéticamente, logramos resultados de vanguardia (SOTA) en traducción simultánea para modelos de tamaño comparable. También introducimos una métrica para la eficiencia en streaming, mostrando cuantitativamente que REINA mejora el equilibrio latencia/calidad hasta en un 21% en comparación con enfoques anteriores, normalizado contra puntajes BLEU de líneas base no simultáneas.
El surgimiento de modelos de razonamiento y su integración en chatbots de IA prácticos ha llevado a avances significativos en la resolución de problemas avanzados de matemáticas, búsqueda profunda y respuesta a preguntas extractivas que requieren un proceso de pensamiento complejo y de múltiples pasos. Sin embargo, aún falta una comprensión completa de por qué estos modelos alucinan más que los modelos de lenguaje de propósito general. En este estudio investigativo, exploramos sistemáticamente los fallos de razonamiento de los modelos de lenguaje contemporáneos en tareas de respuesta a preguntas de múltiples saltos. Introducimos un marco novedoso y matizado de categorización de errores que examina los fallos en tres dimensiones críticas: la diversidad y unicidad de los documentos fuente involucrados ("saltos"), la completitud en la captura de información relevante ("cobertura") y la ineficiencia cognitiva ("sobrepensamiento"). A través de una rigurosa anotación humana, respaldada por métricas automatizadas complementarias, nuestra exploración revela patrones de error intrincados que a menudo quedan ocultos en evaluaciones centradas en la precisión. Este enfoque investigativo proporciona una comprensión más profunda de las limitaciones cognitivas de los modelos actuales y ofrece orientación práctica para mejorar la fidelidad, transparencia y robustez del razonamiento en futuros esfuerzos de modelado de lenguaje.
El análisis de componentes principales robusto (RPCA, por sus siglas en inglés) descompone una matriz de observación en componentes de fondo de bajo rango y objetos dispersos. Esta capacidad ha permitido su aplicación en tareas que van desde la restauración de imágenes hasta la segmentación. Sin embargo, los modelos tradicionales de RPCA sufren de cargas computacionales causadas por operaciones matriciales, dependencia de hiperparámetros finamente ajustados y supuestos rígidos que limitan su adaptabilidad en escenarios dinámicos. Para resolver estas limitaciones, proponemos RPCANet++, un marco de segmentación de objetos dispersos que fusiona la interpretabilidad del RPCA con arquitecturas profundas eficientes. Nuestro enfoque despliega un modelo relajado de RPCA en una red estructurada que comprende un Módulo de Aproximación de Fondo (BAM), un Módulo de Extracción de Objetos (OEM) y un Módulo de Restauración de Imágenes (IRM). Para mitigar la pérdida de transmisión entre etapas en el BAM, introducimos un Módulo de Memoria Aumentada (MAM) para mejorar la preservación de características de fondo, mientras que un Módulo de Prioridad de Contraste Profundo (DCPM) aprovecha indicios de saliencia para acelerar la extracción de objetos. Experimentos extensos en diversos conjuntos de datos demuestran que RPCANet++ logra un rendimiento de vanguardia en diversos escenarios de imagen. Además, mejoramos la interpretabilidad mediante mediciones visuales y numéricas de bajo rango y dispersión. Al combinar las fortalezas teóricas del RPCA con la eficiencia de las redes profundas, nuestro enfoque establece un nuevo estándar para la segmentación de objetos dispersos confiable e interpretable. Los códigos están disponibles en nuestra página del proyecto: https://fengyiwu98.github.io/rpcanetx.
Los modelos de lenguaje multimodal (MLM, por sus siglas en inglés) muestran potencial para el apoyo en la toma de decisiones clínicas y el razonamiento diagnóstico, abriendo la posibilidad de una interpretación automatizada de imágenes médicas de extremo a extremo. Sin embargo, los profesionales clínicos son altamente selectivos al adoptar herramientas de IA; un modelo que comete errores en tareas de percepción aparentemente simples, como determinar la orientación de una imagen o identificar si una tomografía computarizada está contrastada, es poco probable que sea adoptado para tareas clínicas. Presentamos Medblink, un punto de referencia diseñado para evaluar estas capacidades perceptivas en dichos modelos. Medblink abarca ocho tareas clínicamente relevantes en múltiples modalidades de imagen y regiones anatómicas, con un total de 1.429 preguntas de opción múltiple sobre 1.605 imágenes. Evaluamos 19 MLM de última generación, incluyendo modelos de propósito general (GPT4o, Claude 3.5 Sonnet) y específicos del dominio (Med Flamingo, LLaVA Med, RadFM). Mientras que los anotadores humanos alcanzan una precisión del 96,4%, el modelo con mejor rendimiento llega solo al 65%. Estos resultados demuestran que los MLM actuales fallan con frecuencia en verificaciones perceptivas rutinarias, lo que sugiere la necesidad de fortalecer su fundamentación visual para apoyar su adopción clínica. Los datos están disponibles en nuestra página del proyecto.