Artículos de investigación en IA seleccionados diariamente con traducciones
La ciencia de datos autónoma, desde fuentes de datos en bruto hasta informes de investigación profunda de nivel analítico, ha sido un desafío de larga data y ahora se está volviendo factible con el surgimiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) potentes. Los agentes de datos basados en flujos de trabajo recientes han mostrado resultados prometedores en tareas de datos específicas, pero siguen siendo fundamentalmente limitados para lograr una ciencia de datos completamente autónoma debido a su dependencia de flujos de trabajo predefinidos. En este artículo, presentamos DeepAnalyze-8B, el primer LLM agencial diseñado para la ciencia de datos autónoma, capaz de completar automáticamente la canalización de extremo a extremo desde fuentes de datos hasta informes de investigación profunda de nivel analítico. Para abordar tareas de ciencia de datos de alta complejidad, proponemos un paradigma de entrenamiento agencial basado en un currículo que emula la trayectoria de aprendizaje de los científicos de datos humanos, permitiendo que los LLMs adquieran e integren progresivamente múltiples capacidades en entornos del mundo real. También introducimos un marco de síntesis de trayectorias basado en datos que construye datos de entrenamiento de alta calidad. A través del entrenamiento agencial, DeepAnalyze aprende a realizar una amplia gama de tareas de datos, desde la respuesta a preguntas sobre datos y tareas analíticas especializadas hasta la investigación de datos de carácter abierto. Los experimentos demuestran que, con solo 8 mil millones de parámetros, DeepAnalyze supera a los agentes basados en flujos de trabajo anteriores construidos sobre los LLMs propietarios más avanzados. El modelo, el código y los datos de entrenamiento de DeepAnalyze se han liberado como código abierto, allanando el camino hacia la ciencia de datos autónoma.
La edición de imágenes ha logrado avances notables recientemente. Los modelos modernos de edición ya pueden seguir instrucciones complejas para manipular el contenido original. Sin embargo, más allá de completar las instrucciones de edición, los efectos físicos asociados son clave para la generación de realismo. Por ejemplo, eliminar un objeto también debería eliminar su sombra, reflejos e interacciones con objetos cercanos. Lamentablemente, los modelos y puntos de referencia existentes se centran principalmente en la finalización de instrucciones, pero pasan por alto estos efectos físicos. Entonces, en este momento, ¿qué tan lejos estamos de la edición de imágenes físicamente realista? Para responder a esto, presentamos PICABench, que evalúa sistemáticamente el realismo físico en ocho subdimensiones (abarcando óptica, mecánica y transiciones de estado) para la mayoría de las operaciones de edición comunes (añadir, eliminar, cambiar atributos, etc.). Además, proponemos PICAEval, un protocolo de evaluación confiable que utiliza VLM-como-juez con anotaciones y preguntas humanas a nivel de región por caso. Más allá de la evaluación comparativa, también exploramos soluciones efectivas mediante el aprendizaje de física a partir de videos y construimos un conjunto de datos de entrenamiento, PICA-100K. Después de evaluar la mayoría de los modelos principales, observamos que el realismo físico sigue siendo un problema desafiante con un amplio margen para explorar. Esperamos que nuestro punto de referencia y las soluciones propuestas sirvan como base para trabajos futuros que avancen desde la edición de contenido simple hacia un realismo físicamente consistente.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) dependen cada vez más del modelado de contexto largo para tareas como la comprensión de documentos, el análisis de código y el razonamiento de múltiples pasos. Sin embargo, escalar las ventanas de contexto al nivel de millones de tokens conlleva costos computacionales y de memoria prohibitivos, lo que limita la practicidad de los LLMs de contexto largo. En este trabajo, adoptamos una perspectiva diferente: el escalado de contexto visual para abordar este desafío. En lugar de extender secuencias basadas en tokens, proponemos Glyph, un marco que convierte textos largos en imágenes y los procesa con modelos de visión y lenguaje (VLMs, por sus siglas en inglés). Este enfoque comprime sustancialmente la entrada textual mientras preserva la información semántica, y además diseñamos una búsqueda genética impulsada por un LLM para identificar configuraciones óptimas de representación visual que equilibren precisión y compresión. A través de experimentos extensos, demostramos que nuestro método logra una compresión de 3-4 veces en el número de tokens mientras mantiene una precisión comparable a LLMs líderes como Qwen3-8B en varios puntos de referencia de contexto largo. Esta compresión también conduce a un prellenado y decodificación aproximadamente 4 veces más rápidos, y un entrenamiento SFT aproximadamente 2 veces más rápido. Además, bajo compresión extrema, un VLM de contexto de 128K podría escalar para manejar tareas de texto a nivel de 1 millón de tokens. Adicionalmente, los datos de texto renderizados benefician tareas multimodales del mundo real, como la comprensión de documentos. Nuestro código y modelo están disponibles en https://github.com/thu-coai/Glyph.
El avance de los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) se ve obstaculizado por un panorama fragmentado de conjuntos de datos públicos inconsistentes y contaminados. Presentamos FineVision, un corpus meticulosamente recopilado, curado y unificado de 24 millones de muestras, el recurso abierto más grande de su tipo. Unificamos más de 200 fuentes en 185 subconjuntos mediante una canalización semiautomatizada con intervención humana: la automatización realiza la ingesta masiva y el mapeo de esquemas, mientras que los revisores auditan los mapeos y verifican muestras de salidas para garantizar el consumo fiel de anotaciones, el formato adecuado, la diversidad y la seguridad; los problemas desencadenan correcciones específicas y reejecuciones. El flujo de trabajo aplica además una desduplicación rigurosa dentro y entre fuentes, así como una descontaminación frente a 66 puntos de referencia públicos. FineVision también abarca tareas agentes/GUI con un espacio de acción unificado; los revisores validan los esquemas e inspeccionan una muestra de trayectorias para confirmar la fidelidad ejecutable. Los modelos entrenados con FineVision superan consistentemente a aquellos entrenados con mezclas abiertas existentes en una amplia suite de evaluación, destacando los beneficios de la escala, la higiene de datos y la automatización equilibrada con supervisión humana. Publicamos el corpus y las herramientas de curación para acelerar la investigación centrada en datos de VLMs.
Una suposición dominante en la investigación de Modelos de Lenguaje Multimodal (MLLM, por sus siglas en inglés) es que su rendimiento se hereda en gran medida del núcleo del Modelo de Lenguaje (LLM), dado su inmensa escala de parámetros y capacidades notables. Esto ha creado un vacío en la comprensión del codificador visual, que determina cómo los MLLM perciben las imágenes. El reciente cambio en los paradigmas de entrenamiento de los MLLM, desde el Ajuste Supervisado (SFT) hasta el Aprendizaje por Refuerzo (RL), magnifica esta omisión: específicamente, la significativa falta de análisis sobre cómo dicho entrenamiento redefine tanto el codificador visual como el MLLM. Para abordar esto, primero investigamos el impacto de las estrategias de entrenamiento en los MLLM, donde el RL muestra una clara ventaja sobre el SFT en benchmarks de Preguntas y Respuestas Visuales (VQA) fuertemente relacionados con la visión. Motivados por esto, realizamos un análisis crítico y poco explorado del codificador visual de los MLLM a través de experimentos diversos y profundos, que van desde la clasificación y segmentación en ImageNet hasta la visualización de gradientes. Nuestros resultados demuestran que la estrategia de entrenamiento posterior del MLLM (es decir, SFT o RL) no solo conduce a resultados distintos en las tareas posteriores del MLLM, sino que también redefine fundamentalmente las representaciones visuales subyacentes del MLLM. Específicamente, el hallazgo clave de nuestro estudio es que el RL produce representaciones visuales más fuertes y precisamente localizadas en comparación con el SFT, potenciando la capacidad del codificador visual para el MLLM. Luego, reformulamos nuestros hallazgos en una receta simple para construir codificadores visuales robustos para MLLM, denominada Optimización Visual Guiada por Preferencias (PIVOT, por sus siglas en inglés). Cuando se integra en los MLLM, un codificador visual entrenado con PIVOT supera incluso a contrapartes más grandes y con mayor entrenamiento, a pesar de requerir menos del 1% del costo computacional del preentrenamiento visual estándar. Este resultado abre un camino efectivo y eficiente para avanzar en los núcleos visuales de los MLLM. Página del proyecto disponible en https://june-page.github.io/pivot/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado avances notables en tareas de razonamiento complejo, en gran parte habilitados por paradigmas de escalado en tiempo de prueba (TTS, por sus siglas en inglés) que asignan recursos computacionales adicionales durante la inferencia. Entre estos, el TTS externo (particularmente el paradigma de selección Best-of-N) produce mejoras escalables en el rendimiento al seleccionar entre múltiples trayectorias de razonamiento generadas de manera independiente. Sin embargo, este enfoque enfrenta limitaciones clave: (i) el alto costo computacional de implementar modelos de recompensa de proceso, y (ii) la subutilización de las representaciones latentes intrínsecas del LLM. Presentamos TrajSelector, un marco Best-of-N eficiente y efectivo que aprovecha los estados ocultos en el LLM muestreador para la puntuación a nivel de proceso. Un verificador ligero (con solo 0.6 mil millones de parámetros) evalúa la calidad de las trayectorias paso a paso y luego agrega estas puntuaciones para identificar la trayectoria de razonamiento óptima. Nuestro marco emplea una receta de entrenamiento completamente basada en datos y de extremo a extremo que elimina la dependencia de anotaciones masivas a nivel de paso. Los resultados experimentales en cinco benchmarks demuestran que TrajSelector ofrece ganancias de rendimiento consistentes. En configuraciones Best-of-32, supera la votación mayoritaria en un 4.61% de precisión y supera a los modelos de recompensa de proceso existentes en un rango de 4.31% a 12.21%, todo ello manteniendo costos de inferencia más bajos.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha surgido como un paradigma poderoso para mejorar los modelos de lenguaje de gran escala (LLMs) mediante la recuperación de documentos relevantes de un corpus externo. Sin embargo, los sistemas RAG existentes se centran principalmente en documentos unimodales de texto y, a menudo, no alcanzan su máximo potencial en escenarios del mundo real donde tanto las consultas como los documentos pueden contener modalidades mixtas (como texto e imágenes). En este artículo, abordamos el desafío de la Generación Aumentada por Recuperación Universal (URAG), que implica la recuperación y el razonamiento sobre información multimodal mixta para mejorar la generación de lenguaje visual. Para ello, proponemos Nyx, un recuperador multimodal mixto unificado diseñado específicamente para escenarios URAG. Para mitigar la escasez de datos multimodales mixtos realistas, introducimos una canalización automatizada de cuatro etapas para la generación y el filtrado, aprovechando documentos web para construir NyxQA, un conjunto de datos que comprende diversos pares de preguntas y respuestas multimodales mixtas que reflejan mejor las necesidades de información del mundo real. Basándonos en este conjunto de datos de alta calidad, adoptamos un marco de entrenamiento de dos etapas para Nyx: primero realizamos un preentrenamiento en NyxQA junto con una variedad de conjuntos de datos de recuperación de código abierto, seguido de un ajuste fino supervisado utilizando retroalimentación de modelos de lenguaje visual (VLMs) para alinear las salidas de recuperación con las preferencias generativas. Los resultados experimentales demuestran que Nyx no solo tiene un desempeño competitivo en los puntos de referencia estándar de RAG de solo texto, sino que también sobresale en el entorno más general y realista de URAG, mejorando significativamente la calidad de la generación en tareas de lenguaje visual.
Los Modelos de Lenguaje a Gran Escala han logrado un rendimiento sólido en tareas de razonamiento, resolviendo problemas de codificación y matemáticas de nivel competitivo. Sin embargo, su escalabilidad está limitada por los conjuntos de datos etiquetados por humanos y la falta de datos de entrenamiento a gran escala para problemas de codificación desafiantes. Los conjuntos de datos existentes de codificación competitiva contienen solo miles o decenas de miles de problemas. Los métodos anteriores de generación de datos sintéticos dependen de la ampliación de conjuntos de datos de instrucciones existentes o de la selección de problemas desafiantes a partir de datos etiquetados por humanos. En este artículo, proponemos QueST, un marco novedoso que combina muestreo de grafos consciente de la dificultad y ajuste fino por rechazo consciente de la dificultad, optimizando directamente generadores especializados para crear problemas de codificación desafiantes. Nuestros generadores entrenados demuestran una capacidad superior incluso en comparación con GPT-4o para crear problemas desafiantes que benefician el rendimiento en tareas posteriores. Utilizamos QueST para generar problemas de codificación sintéticos a gran escala, que luego empleamos para destilar modelos maestros fuertes con cadenas de pensamiento largas o para realizar aprendizaje por refuerzo en modelos más pequeños, demostrando ser efectivos en ambos escenarios. Nuestros experimentos de destilación muestran mejoras significativas en el rendimiento. Específicamente, después de ajustar Qwen3-8B-base con 100K problemas difíciles generados por QueST, superamos el rendimiento del Qwen3-8B original en LiveCodeBench. Con 112K ejemplos adicionales (es decir, 28K problemas escritos por humanos emparejados con múltiples soluciones sintéticas), nuestro modelo de 8B iguala el rendimiento del mucho más grande DeepSeek-R1-671B. Estos hallazgos indican que la generación de problemas complejos a través de QueST ofrece un enfoque efectivo y escalable para avanzar en las fronteras de la codificación competitiva y el razonamiento para modelos de lenguaje a gran escala.
El ensamblaje de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha captado atención como un enfoque prometedor para superar el rendimiento de modelos individuales al aprovechar sus fortalezas complementarias. En particular, se ha demostrado que la agregación de las distribuciones de probabilidad del siguiente token de los modelos para seleccionar el siguiente token es efectiva en diversas tareas. Sin embargo, aunque ha tenido éxito en respuestas de formato corto, su aplicación en la generación de contenido de formato largo sigue siendo poco explorada. En este artículo, mostramos que el uso de métodos de ensamblaje existentes en la generación de formato largo requiere una elección cuidadosa de las posiciones de ensamblaje, ya que la práctica estándar de ensamblar en cada token a menudo degrada el rendimiento. Identificamos dos factores clave para determinar estas posiciones: la falta de coincidencia en la tokenización entre modelos y el consenso en sus distribuciones de probabilidad del siguiente token. Basándonos en esto, proponemos SAFE (Stable And Fast LLM Ensembling), un marco que ensambla de manera selectiva al considerar conjuntamente estos factores. Para mejorar aún más la estabilidad, introducimos una estrategia de afilado de probabilidades que consolida las probabilidades distribuidas en múltiples sub-tokens que representan la misma palabra en un único token representativo. Nuestros experimentos en diversos puntos de referencia, incluyendo MATH500 y BBH, demuestran que SAFE supera a los métodos existentes tanto en precisión como en eficiencia, logrando mejoras incluso cuando se ensamblan menos del 1% de los tokens.
Si bien los modelos fundacionales han mostrado potencial en diversos campos, la astronomía aún carece de un marco unificado para el modelado conjunto de sus altamente diversas modalidades de datos. En este artículo, presentamos AION-1, una familia de modelos fundacionales multimodales a gran escala para astronomía. AION-1 integra datos heterogéneos de imágenes, espectroscopía y escalares utilizando una arquitectura de dos etapas: tokenización específica por modalidad seguida de modelado enmascarado basado en transformadores de secuencias de tokens multimodales. El modelo se preentrena con cinco estudios a gran escala: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) y Gaia. Estos abarcan más de 200 millones de observaciones de estrellas, galaxias y cuásares. Con un único codificador congelado, AION-1 logra resultados sólidos en una amplia gama de tareas posteriores, incluyendo estimación de propiedades de galaxias y estrellas, clasificación de morfología galáctica, recuperación basada en similitud, segmentación de imágenes de galaxias y superresolución espectral. Publicamos variantes del modelo AION-1 que van desde 300 M hasta 3.1 B de parámetros. Más allá de la astronomía, AION-1 proporciona un esquema escalable para modelos fundacionales científicos multimodales que pueden integrar sin problemas observaciones ruidosas y específicas de instrumentos. Todo el código, tokenizadores, pesos preentrenados y un conjunto ligero de evaluación se publican bajo una licencia de código abierto.
Si bien el escalado en tiempo de inferencia mediante búsqueda ha revolucionado los Modelos de Lenguaje de Gran Escala, trasladar estos avances a la generación de imágenes ha resultado difícil. Intentos recientes de aplicar estrategias de búsqueda a modelos de difusión continua muestran beneficios limitados, con un muestreo aleatorio simple que a menudo funciona mejor. Demostramos que la naturaleza discreta y secuencial de los modelos autoregresivos visuales permite una búsqueda efectiva para la generación de imágenes. Mostramos que la búsqueda por haz mejora sustancialmente la generación de texto a imagen, permitiendo que un modelo autoregresivo de 2 mil millones de parámetros supere a un modelo de difusión de 12 mil millones de parámetros en diversos benchmarks. Las ablaciones sistemáticas muestran que esta ventaja proviene del espacio de tokens discreto, que permite la poda temprana y la reutilización computacional, y nuestro análisis de verificadores destaca las compensaciones entre velocidad y capacidad de razonamiento. Estos hallazgos sugieren que la arquitectura del modelo, no solo la escala, es crítica para la optimización en tiempo de inferencia en la generación visual.
La alineación de honestidad—la capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para reconocer sus límites de conocimiento y expresar confianza calibrada—es esencial para un despliegue confiable. Los métodos existentes se basan en la estimación de confianza sin entrenamiento (por ejemplo, probabilidades de tokens, autoconsistencia) o en la calibración basada en entrenamiento con anotaciones de corrección. Aunque efectivos, lograr una alineación universal de honestidad con calibración basada en entrenamiento requiere un etiquetado costoso y a gran escala. Para apoyar un entrenamiento eficiente en anotaciones, presentamos Elicitation-Then-Calibration (EliCal), un marco de trabajo de dos etapas que primero elicita la confianza interna utilizando una supervisión de autoconsistencia de bajo costo, y luego calibra esta confianza con un pequeño conjunto de anotaciones de corrección. Para respaldar un estudio a gran escala, publicamos HonestyBench, un punto de referencia que cubre diez conjuntos de datos de preguntas y respuestas de formato libre con 560k instancias de entrenamiento y 70k de evaluación, anotadas con señales de corrección y autoconsistencia. Los experimentos muestran que EliCal logra una alineación casi óptima con solo 1k anotaciones de corrección (0.18% de la supervisión completa) y un mejor rendimiento de alineación en tareas MMLU no vistas que la línea base de solo calibración, ofreciendo una solución escalable hacia la alineación universal de honestidad en LLMs.
La edición de imágenes basada en instrucciones ha logrado avances notables; sin embargo, los modelos entrenados únicamente mediante ajuste fino supervisado suelen sobreajustarse a los patrones anotados, lo que dificulta su capacidad para explorar y generalizar más allá de las distribuciones de entrenamiento. Para abordar este problema, presentamos Edit-R1, un marco novedoso de posentrenamiento para la edición de imágenes basada en instrucciones, fundamentado en la optimización de políticas. Específicamente, utilizamos Diffusion Negative-aware Finetuning (DiffusionNFT), un método de optimización de políticas sin verosimilitud que es consistente con el proceso de avance de emparejamiento de flujo, lo que permite el uso de muestreadores de orden superior y un entrenamiento más eficiente. Otro desafío clave es la ausencia de un modelo de recompensa universal, resultado de la naturaleza diversa de las instrucciones y tareas de edición. Para cerrar esta brecha, empleamos un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) como un modelo de recompensa unificado y sin necesidad de entrenamiento, aprovechando sus logits de salida para proporcionar retroalimentación detallada. Además, diseñamos cuidadosamente un mecanismo de filtrado de grupo de baja varianza para reducir el ruido en la puntuación del MLLM y estabilizar la optimización. UniWorld-V2, entrenado con este marco, alcanza resultados de vanguardia en los benchmarks ImgEdit y GEdit-Bench, con puntuaciones de 4.49 y 7.83, respectivamente. Es crucial destacar que nuestro marco es independiente del modelo, ofreciendo mejoras sustanciales en el rendimiento cuando se aplica a diversos modelos base como Qwen-Image-Edit y FLUX-Kontext, demostrando su amplia aplicabilidad. El código y los modelos están disponibles públicamente en https://github.com/PKU-YuanGroup/UniWorld-V2.
Los avances recientes en métodos de control de atención sin entrenamiento han permitido capacidades de edición guiada por texto flexibles y eficientes para los modelos de generación existentes. Sin embargo, los enfoques actuales luchan por ofrecer simultáneamente una fuerte capacidad de edición mientras mantienen la coherencia con la fuente. Esta limitación se vuelve particularmente crítica en la edición de múltiples rondas y de video, donde los errores visuales pueden acumularse con el tiempo. Además, la mayoría de los métodos existentes imponen una coherencia global, lo que limita su capacidad para modificar atributos individuales, como la textura, mientras preservan otros, obstaculizando así la edición de grano fino. Recientemente, el cambio arquitectónico de U-Net a MM-DiT ha traído mejoras significativas en el rendimiento generativo e introdujo un mecanismo novedoso para integrar las modalidades de texto y visión. Estos avances allanan el camino para superar desafíos que los métodos anteriores no lograron resolver. A través de un análisis en profundidad de MM-DiT, identificamos tres ideas clave sobre sus mecanismos de atención. Basándonos en estas, proponemos ConsistEdit, un método novedoso de control de atención específicamente diseñado para MM-DiT. ConsistEdit incorpora control de atención exclusivamente visual, fusión pre-atención guiada por máscara y manipulación diferenciada de los tokens de consulta, clave y valor para producir ediciones coherentes y alineadas con el prompt. Experimentos extensos demuestran que ConsistEdit alcanza un rendimiento de vanguardia en una amplia gama de tareas de edición de imágenes y videos, incluyendo escenarios tanto de coherencia estructural como de incoherencia estructural. A diferencia de métodos anteriores, es el primer enfoque que realiza ediciones en todos los pasos de inferencia y capas de atención sin intervención manual, mejorando significativamente la fiabilidad y coherencia, lo que permite una edición robusta de múltiples rondas y múltiples regiones. Además, admite el ajuste progresivo de la coherencia estructural, permitiendo un control más fino.
Replicar investigaciones de IA es una tarea crucial pero desafiante para los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Los enfoques existentes a menudo luchan por generar código ejecutable, principalmente debido a la insuficiencia de conocimiento de fondo y las limitaciones de los métodos de generación aumentada por recuperación (RAG, por sus siglas en inglés), que no logran capturar detalles técnicos latentes ocultos en los artículos referenciados. Además, los enfoques anteriores tienden a pasar por alto señales valiosas de código a nivel de implementación y carecen de representaciones estructuradas de conocimiento que apoyen la recuperación y reutilización multi-granular. Para superar estos desafíos, proponemos Grafos de Conocimiento Ejecutables (xKG, por sus siglas en inglés), una base de conocimiento modular y conectable que integra automáticamente conocimientos técnicos, fragmentos de código y conocimiento específico del dominio extraído de la literatura científica. Al integrarse en tres marcos de agentes con dos LLM diferentes, xKG muestra mejoras sustanciales en el rendimiento (10.9% con o3-mini) en PaperBench, demostrando su eficacia como una solución general y extensible para la replicación automatizada de investigaciones de IA. El código será liberado en https://github.com/zjunlp/xKG.
El razonamiento de cadena de pensamiento de formato largo se ha convertido en un pilar fundamental del razonamiento avanzado en los modelos de lenguaje de gran escala. Si bien los marcos recientes de verificación-refinamiento han permitido que los modelos propietarios resuelvan problemas de nivel olímpico, su efectividad depende de capacidades sólidas y confiables de verificación y corrección, las cuales siguen siendo frágiles en modelos de menor escala y de pesos abiertos. Este trabajo demuestra que, incluso con capacidades débiles de verificación y refinamiento en tareas difíciles, los límites de razonamiento de dichos modelos pueden ampliarse sustancialmente mediante un paradigma probabilístico que denominamos Razonamiento Autoevolutivo Profundo (DSER, por sus siglas en inglés). Conceptualizamos el razonamiento iterativo como una cadena de Markov, donde cada paso representa una transición estocástica en el espacio de soluciones. La idea clave es que la convergencia hacia una solución correcta está garantizada siempre que la probabilidad de mejora supere marginalmente la de degradación. Al ejecutar múltiples procesos autoevolutivos de largo horizonte en paralelo, DSER amplifica estas pequeñas tendencias positivas, permitiendo que el modelo se acerque asintóticamente a respuestas correctas. Empíricamente, aplicamos DSER al modelo DeepSeek-R1-0528-Qwen3-8B. En el desafiante punto de referencia AIME 2024-2025, DSER resuelve 5 de 9 problemas previamente irresolubles y mejora el rendimiento general, permitiendo que este modelo compacto supere la precisión de una sola iteración de su maestro de 600 mil millones de parámetros mediante votación mayoritaria. Más allá de su utilidad inmediata para la escalabilidad en pruebas, el marco DSER sirve para diagnosticar las limitaciones fundamentales de los razonadores actuales de pesos abiertos. Al delinear claramente sus deficiencias en autoverificación, refinamiento y estabilidad, nuestros hallazgos establecen una agenda de investigación clara para desarrollar modelos de próxima generación con capacidades intrínsecas y potentes de autoevolución.
Los modelos preentrenados de series temporales han permitido sistemas de pronóstico basados únicamente en inferencia que producen predicciones precisas sin entrenamiento específico para cada tarea. Sin embargo, los enfoques existentes se centran principalmente en pronósticos univariados, lo que limita su aplicabilidad en escenarios del mundo real donde los datos multivariados y las covariables desempeñan un papel crucial. Presentamos Chronos-2, un modelo preentrenado capaz de manejar tareas de pronóstico univariadas, multivariadas y basadas en covariables de manera zero-shot. Chronos-2 emplea un mecanismo de atención grupal que facilita el aprendizaje en contexto (ICL, por sus siglas en inglés) mediante el intercambio eficiente de información entre múltiples series temporales dentro de un grupo, que puede representar conjuntos de series relacionadas, variantes de una serie multivariada o objetivos y covariables en una tarea de pronóstico. Estas capacidades generales se logran mediante el entrenamiento en conjuntos de datos sintéticos que imponen estructuras multivariadas diversas en series univariadas. Chronos-2 ofrece un rendimiento de vanguardia en tres puntos de referencia exhaustivos: fev-bench, GIFT-Eval y Chronos Benchmark II. En fev-bench, que enfatiza el pronóstico multivariado y basado en covariables, las capacidades universales de ICL de Chronos-2 conducen a mejoras sustanciales sobre los modelos existentes. En tareas que involucran covariables, supera consistentemente a los modelos de referencia por un amplio margen. Estudios de caso en los sectores de energía y minoristas destacan aún más sus ventajas prácticas. Las capacidades de aprendizaje en contexto de Chronos-2 lo establecen como un modelo de pronóstico de propósito general que puede utilizarse "tal cual" en pipelines de pronóstico del mundo real.
La rápida evolución de la IA agentiva marca una nueva fase en la inteligencia artificial, donde los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ya no solo responden, sino que actúan, razonan y se adaptan. Este estudio traza el cambio de paradigma en la construcción de la IA agentiva: desde los sistemas basados en tuberías, donde la planificación, el uso de herramientas y la memoria son orquestados por lógica externa, hasta el paradigma emergente de Modelo-nativo, donde estas capacidades están internalizadas dentro de los parámetros del modelo. Primero, posicionamos el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) como el motor algorítmico que permite este cambio de paradigma. Al reformular el aprendizaje desde la imitación de datos estáticos hacia la exploración impulsada por resultados, el RL sustenta una solución unificada de LLM + RL + Tarea en los dominios del lenguaje, la visión y la interacción corporeizada. Sobre esta base, el estudio revisa sistemáticamente cómo cada capacidad —Planificación, Uso de herramientas y Memoria— ha evolucionado desde módulos externamente guionizados hasta comportamientos aprendidos de extremo a extremo. Además, examina cómo este cambio de paradigma ha transformado las principales aplicaciones de agentes, específicamente el agente de Investigación Profunda, que enfatiza el razonamiento de largo alcance, y el agente de Interfaz Gráfica de Usuario (GUI), que enfatiza la interacción corporeizada. Concluimos discutiendo la internalización continua de capacidades agentivas como la colaboración multiagente y la reflexión, junto con los roles en evolución de las capas del sistema y del modelo en la futura IA agentiva. En conjunto, estos desarrollos delinean una trayectoria coherente hacia la IA agentiva de modelo-nativo como un marco integrado de aprendizaje e interacción, marcando la transición desde la construcción de sistemas que aplican inteligencia hacia el desarrollo de modelos que cultivan la inteligencia a través de la experiencia.
El Laboratorio de Avatares Codec en Meta presenta Embody 3D, un conjunto de datos multimodal que incluye 500 horas individuales de datos de movimiento en 3D de 439 participantes, recopilados en una etapa de captura multicámara, lo que suma más de 54 millones de cuadros de movimiento 3D rastreado. El conjunto de datos abarca una amplia gama de movimientos de una sola persona, incluyendo movimientos guiados, gestos manuales y locomoción; así como datos de comportamiento y conversación entre múltiples personas, como discusiones, conversaciones en diferentes estados emocionales, actividades colaborativas y escenarios de convivencia en un espacio similar a un apartamento. Proporcionamos movimiento humano rastreado, incluyendo seguimiento de manos y forma corporal, anotaciones de texto y una pista de audio separada para cada participante.
Los avances recientes en la generación de imágenes, impulsados frecuentemente por sistemas propietarios como GPT-4o Image Gen, introducen regularmente nuevas capacidades que transforman la forma en que los usuarios interactúan con estos modelos. Los puntos de referencia existentes a menudo se quedan rezagados y no logran capturar estos casos de uso emergentes, dejando una brecha entre las percepciones comunitarias del progreso y la evaluación formal. Para abordar esto, presentamos ECHO, un marco para construir puntos de referencia directamente a partir de evidencia del mundo real sobre el uso de los modelos: publicaciones en redes sociales que muestran indicaciones novedosas y juicios cualitativos de los usuarios. Aplicando este marco a GPT-4o Image Gen, construimos un conjunto de datos de más de 31,000 indicaciones curadas a partir de dichas publicaciones. Nuestro análisis muestra que ECHO (1) descubre tareas creativas y complejas ausentes en los puntos de referencia existentes, como la reinterpretación de etiquetas de productos en diferentes idiomas o la generación de recibos con totales específicos, (2) distingue más claramente los modelos de vanguardia de las alternativas, y (3) recopila comentarios de la comunidad que utilizamos para informar el diseño de métricas de calidad del modelo (por ejemplo, midiendo cambios observados en el color, la identidad y la estructura). Nuestro sitio web se encuentra en https://echo-bench.github.io.
El aprendizaje por refuerzo agente (RL, por sus siglas en inglés) entrena modelos de lenguaje extensos para invocar herramientas de manera autónoma durante el razonamiento, siendo la búsqueda la aplicación más común. Estos modelos destacan en tareas de razonamiento de múltiples pasos, pero sus propiedades de seguridad no están bien comprendidas. En este estudio, demostramos que los modelos de búsqueda entrenados con RL heredan la capacidad de rechazo del ajuste por instrucciones y a menudo desvían solicitudes dañinas convirtiéndolas en consultas seguras. Sin embargo, esta seguridad es frágil. Dos ataques simples, uno que obliga al modelo a comenzar su respuesta con una búsqueda (ataque de búsqueda) y otro que incentiva a los modelos a buscar repetidamente (ataque de búsqueda múltiple), desencadenan cascadas de búsquedas y respuestas dañinas. En dos familias de modelos (Qwen, Llama) con búsquedas tanto locales como en la web, estos ataques reducen las tasas de rechazo hasta en un 60.0%, la seguridad de las respuestas en un 82.5% y la seguridad de las consultas de búsqueda en un 82.4%. Los ataques tienen éxito al hacer que los modelos generen consultas de búsqueda dañinas que reflejan la solicitud antes de que puedan generar los tokens de rechazo heredados. Esto expone una debilidad fundamental del entrenamiento actual de RL: recompensa la generación continua de consultas efectivas sin tener en cuenta su nocividad. Como resultado, los modelos de búsqueda RL tienen vulnerabilidades que los usuarios pueden explotar fácilmente, lo que hace urgente desarrollar pipelines de RL agente conscientes de la seguridad que optimicen la búsqueda segura.
Los agentes multimodales para el uso de computadoras dependen exclusivamente de acciones primitivas (clic, escribir, desplazarse) que requieren un anclaje visual preciso y cadenas de ejecución prolongadas, lo que conduce a fallos en cascada y cuellos de botella en el rendimiento. Mientras que otros agentes aprovechan interfaces programáticas avanzadas (APIs, servidores MCP, herramientas), los agentes de uso de computadoras (CUAs, por sus siglas en inglés) permanecen aislados de estas capacidades. Presentamos UltraCUA, un modelo fundacional que cierra esta brecha mediante acciones híbridas, integrando de manera fluida las primitivas de interfaz gráfica (GUI) con llamadas a herramientas programáticas de alto nivel. Para lograrlo, nuestro enfoque consta de cuatro componentes clave: (1) una canalización automatizada que escala herramientas programáticas a partir de documentación de software, repositorios de código abierto y generación de código; (2) un motor de datos sintéticos que produce más de 17,000 tareas verificables que abarcan escenarios reales de uso de computadoras; (3) una colección a gran escala de trayectorias de acciones híbridas de alta calidad, que incluyen tanto acciones de GUI de bajo nivel como llamadas a herramientas programáticas de alto nivel; y (4) una canalización de entrenamiento en dos etapas que combina ajuste fino supervisado con aprendizaje por refuerzo en línea, permitiendo la alternancia estratégica entre acciones de bajo y alto nivel. Los experimentos con nuestros modelos de 7B y 32B demuestran mejoras sustanciales sobre los agentes más avanzados. En OSWorld, los modelos UltraCUA logran una mejora relativa promedio del 22% sobre los modelos base, siendo un 11% más rápidos en términos de pasos. La evaluación fuera de dominio en WindowsAgentArena muestra que nuestro modelo alcanza una tasa de éxito del 21.7%, superando a los baselines entrenados con datos de Windows. El mecanismo de acción híbrida resulta crítico, reduciendo la propagación de errores mientras mantiene la eficiencia en la ejecución.
A medida que la información crece exponencialmente, las empresas enfrentan una presión creciente para transformar datos no estructructurados en conocimientos coherentes y accionables. Si bien los agentes autónomos muestran potencial, a menudo luchan con los matices específicos del dominio, la alineación de intenciones y la integración empresarial. Presentamos Enterprise Deep Research (EDR), un sistema multiagente que integra (1) un Agente de Planificación Maestra para la descomposición adaptativa de consultas, (2) cuatro agentes de búsqueda especializados (General, Académico, GitHub, LinkedIn), (3) un ecosistema de herramientas extensible basado en MCP que soporta NL2SQL, análisis de archivos y flujos de trabajo empresariales, (4) un Agente de Visualización para insights basados en datos, y (5) un mecanismo de reflexión que detecta brechas de conocimiento y actualiza la dirección de la investigación con orientación opcional de un humano en el ciclo. Estos componentes permiten la generación automatizada de informes, transmisión en tiempo real y despliegue empresarial sin problemas, como se ha validado en conjuntos de datos internos. En benchmarks de preguntas abiertas, incluyendo DeepResearch Bench y DeepConsult, EDR supera a los sistemas agentes más avanzados sin ninguna intervención humana. Publicamos el marco de EDR y las trayectorias de referencia para avanzar en la investigación sobre aplicaciones de razonamiento multiagente. Código en https://github.com/SalesforceAIResearch/enterprise-deep-research y Dataset en https://huggingface.co/datasets/Salesforce/EDR-200
La respuesta visual a preguntas basada en conocimiento (KB-VQA) requiere que los modelos de lenguaje visual (VLMs) integren la comprensión visual con la recuperación de conocimiento externo. Aunque la generación aumentada por recuperación (RAG) logra avances significativos en esta tarea al combinar la consulta de bases de conocimiento, todavía enfrenta desafíos con la calidad de las consultas multimodales y la relevancia de los resultados recuperados. Para superar estos desafíos, proponemos un método novedoso de tres etapas, denominado Wiki-PRF, que incluye las etapas de Procesamiento, Recuperación y Filtrado. La etapa de procesamiento invoca dinámicamente herramientas visuales para extraer información multimodal precisa para la recuperación. La etapa de recuperación integra características visuales y textuales para lograr la recuperación de conocimiento multimodal. La etapa de filtrado realiza un filtrado de relevancia y concentración en los resultados recuperados. Para ello, introducimos un modelo de lenguaje visual entrenado con precisión en las respuestas y consistencia en el formato como señales de recompensa mediante un enfoque de aprendizaje por refuerzo. Esto mejora el razonamiento del modelo, la invocación de herramientas para consultas precisas y el filtrado de contenido irrelevante. Los experimentos en conjuntos de datos de referencia (E-VQA e InfoSeek) muestran mejoras significativas (~36.0 y 42.8) en la calidad de las respuestas, alcanzando un rendimiento de vanguardia. El código está disponible en https://github.com/cqu-student/Wiki-PRF.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como OpenAI-o1 y DeepSeek-R1, han demostrado capacidades de razonamiento sólidas. Para mejorar aún más las capacidades de los LLMs, sistemas agentes recientes, como Deep Research, incorporan interacciones web en el razonamiento de los LLMs para mitigar incertidumbres y reducir errores potenciales. Sin embargo, la investigación existente se centra predominantemente en el rendimiento del razonamiento, a menudo descuidando la eficiencia de los sistemas agentes. En este trabajo, presentamos un estudio empírico exhaustivo que identifica cuellos de botella de eficiencia en sistemas agentes interactivos basados en la web. Descomponemos la latencia de extremo a extremo en dos componentes principales: la latencia de la API del LLM y la latencia del entorno web. Realizamos un estudio empírico exhaustivo en 15 modelos y 5 proveedores para demostrar una alta variabilidad en los sistemas agentes basados en API. Observamos que la latencia del entorno web puede contribuir hasta un 53.7% a la latencia total en un sistema agente basado en la web. Para mejorar la latencia, proponemos SpecCache, un marco de almacenamiento en caché aumentado con ejecución especulativa que puede reducir la sobrecarga del entorno web. Evaluaciones extensas en dos puntos de referencia estándar muestran que nuestro enfoque mejora la tasa de aciertos en la caché hasta 58 veces en comparación con una estrategia de almacenamiento en caché aleatoria, mientras reduce la sobrecarga del entorno web hasta 3.2 veces, sin degradar el rendimiento del sistema agente.
Los Modelos de Visión y Lenguaje (VLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en benchmarks de una sola interacción, sin embargo, las aplicaciones del mundo real a menudo exigen diálogos multiturno más complejos. Los conjuntos de datos multiturno existentes (por ejemplo, MMDU, ConvBench) solo capturan parcialmente la amplitud y profundidad de los escenarios conversacionales que encuentran los usuarios. En este trabajo, presentamos MultiVerse, un nuevo benchmark de conversaciones multiturno que incluye 647 diálogos —cada uno con un promedio de cuatro interacciones— derivados de un conjunto diverso de 12 benchmarks populares de evaluación de VLMs. Con 484 tareas y 484 objetivos de interacción, MultiVerse abarca una amplia gama de temas, desde conocimiento factual y percepción hasta tareas de razonamiento avanzado como matemáticas y programación. Para facilitar una evaluación robusta, proponemos un método de evaluación basado en listas de verificación que utiliza GPT-4o como evaluador automatizado, midiendo el rendimiento en 37 aspectos clave, incluyendo precisión perceptiva, claridad lingüística y corrección factual. Evaluamos 18 VLMs en MultiVerse, revelando que incluso los modelos más fuertes (por ejemplo, GPT-4o) logran solo un 50% de tasa de éxito en conversaciones multiturno complejas, lo que subraya la naturaleza desafiante del conjunto de datos. Notablemente, encontramos que proporcionar el contexto completo del diálogo mejora significativamente el rendimiento de modelos más pequeños o débiles, enfatizando la importancia del aprendizaje en contexto. Creemos que MultiVerse representa un panorama clave para evaluar las habilidades de interacción multiturno en VLMs.
Los recientes avances en los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) han permitido un rendimiento notable en tareas complejas como las matemáticas y la codificación, gracias a la generación de largas trazas de Cadena de Pensamiento (CoT). En este artículo, identificamos y analizamos sistemáticamente una vulnerabilidad crítica que denominamos distracción del razonamiento, donde los LRMs son desviados de su objetivo principal por tareas irrelevantes pero complejas que se insertan maliciosamente en la indicación. A través de un estudio exhaustivo en diversos modelos y puntos de referencia, demostramos que incluso los LRMs más avanzados son altamente susceptibles, con distractores inyectados que reducen la precisión de la tarea hasta en un 60%. Además, revelamos que ciertas técnicas de alineación pueden amplificar esta debilidad y que los modelos pueden exhibir una conformidad encubierta, siguiendo instrucciones adversarias ocultas durante el razonamiento mientras las ocultan en la salida final. Para mitigar estos riesgos, proponemos una defensa basada en entrenamiento que combina Ajuste Fino Supervisado (SFT) y Aprendizaje por Refuerzo (RL) en datos adversarios sintéticos, mejorando la robustez en más de 50 puntos frente a ataques de distractores desafiantes. Nuestros hallazgos establecen la distracción del razonamiento como una amenaza distintiva y urgente para la confiabilidad de los LRMs y proporcionan un paso práctico hacia sistemas de razonamiento más seguros y confiables.
El ajuste fino de evaluadores generativos especializados ha surgido como un paradigma popular para satisfacer la creciente demanda de evaluación escalable tanto durante el entrenamiento como en el momento de prueba. Sin embargo, trabajos recientes se han centrado principalmente en aplicar nuevas metodologías, como el aprendizaje por refuerzo (RL), al entrenamiento de evaluadores, evitando el desarrollo a gran escala basado en datos. En este trabajo, nos enfocamos en la escalabilidad de datos, curando un conjunto de 2.5 millones de muestras que abarcan cinco tareas de evaluación únicas (comparación por pares, evaluación a nivel de paso, verificación sin referencia y basada en referencia, y calificación única) y múltiples dominios centrados en la evaluación del razonamiento. Con nuestros datos, entrenamos Evaluadores Automáticos de Razonamiento Fundamentales (FARE, por sus siglas en inglés), una familia de evaluadores con 8 mil millones y 20 mil millones de parámetros (con 3.6 mil millones activos), utilizando un enfoque simple de ajuste fino supervisado (SFT) con muestreo por rechazo iterativo. FARE-8B desafía a evaluadores especializados más grandes entrenados con RL, y FARE-20B establece un nuevo estándar para evaluadores de código abierto, superando a evaluadores especializados con más de 70 mil millones de parámetros. Más allá de los puntos de referencia estáticos, evaluamos FARE en tareas del mundo real: como reordenadores en tiempo de inferencia, FARE-20B alcanza un rendimiento cercano al oráculo en MATH. Como verificadores en el entrenamiento con RL, FARE mejora el rendimiento del modelo entrenado con RL en hasta un 14.1% en comparación con verificadores basados en coincidencia de cadenas. Cuando se inicializa a partir de FARE, un FARE-Code ajustado continuamente supera a gpt-oss-20B en un 65% en la evaluación de la calidad de los casos de prueba.
Si tuvieras un traductor de IA de ballena a inglés, ¿cómo podrías validar si está funcionando o no? ¿Es necesario interactuar con los animales o depender de observaciones fundamentadas, como la temperatura? Proporcionamos evidencia teórica y experimental de concepto que sugiere que la interacción e incluso las observaciones pueden no ser necesarias para lenguajes suficientemente complejos. Podría ser posible evaluar los traductores únicamente por sus salidas en inglés, ofreciendo ventajas potenciales en términos de seguridad, ética y costos. Este es un caso de evaluación de calidad de traducción automática (MTQE, por sus siglas en inglés) sin disponer de traducciones de referencia. Un desafío clave es identificar "alucinaciones", traducciones falsas que pueden parecer fluidas y plausibles. Proponemos utilizar la traducción segmento por segmento junto con la clásica prueba de barajado en procesamiento del lenguaje natural (NLP) para evaluar los traductores. La idea es traducir la comunicación animal, turno por turno, y evaluar con qué frecuencia las traducciones resultantes tienen más sentido en orden que permutadas. Experimentos de concepto en lenguajes humanos con escasez de datos y lenguajes construidos demuestran la utilidad potencial de esta metodología de evaluación. Estos experimentos con lenguajes humanos sirven únicamente para validar nuestra métrica sin referencia bajo escasez de datos. Se encuentra que esta métrica correlaciona altamente con una evaluación estándar basada en traducciones de referencia, las cuales están disponibles en nuestros experimentos. También realizamos un análisis teórico que sugiere que la interacción puede no ser necesaria ni eficiente en las primeras etapas del aprendizaje de traducción.
Este trabajo presenta una investigación sistemática de arquitecturas personalizadas de redes neuronales convolucionales para la clasificación de uso del suelo en imágenes satelitales, logrando una precisión del 97.23% en el conjunto de datos EuroSAT sin depender de modelos preentrenados. A través de tres iteraciones arquitectónicas progresivas (línea base: 94.30%, mejorada con CBAM: 95.98%, y atención multitarea equilibrada: 97.23%), identificamos y abordamos modos de fallo específicos en la clasificación de imágenes satelitales. Nuestra principal contribución es un novedoso mecanismo de atención multitarea equilibrada que combina la Atención Coordenada para la extracción de características espaciales con bloques Squeeze-Excitation para la extracción de características espectrales, unificados mediante un parámetro de fusión aprendible. Los resultados experimentales demuestran que este parámetro aprendible converge autónomamente a un valor de alfa aproximadamente 0.57, indicando una importancia casi igual de las modalidades espacial y espectral en las imágenes satelitales. Empleamos regularización progresiva con DropBlock (5-20% según la profundidad de la red) y ponderación de pérdida equilibrada por clase para abordar el sobreajuste y el desequilibrio en los patrones de confusión. La arquitectura final de 12 capas alcanza un Kappa de Cohen de 0.9692, con todas las clases superando el 94.46% de precisión, demostrando una calibración de confianza con una brecha del 24.25% entre predicciones correctas e incorrectas. Nuestro enfoque logra un rendimiento dentro del 1.34% del ResNet-50 ajustado (98.57%) sin requerir datos externos, validando la eficacia del diseño arquitectónico sistemático para aplicaciones específicas del dominio. El código completo, los modelos entrenados y los scripts de evaluación están disponibles públicamente.
El diseño de sistemas agentes efectivos requiere la composición e integración fluida de agentes, herramientas y modelos dentro de entornos dinámicos e inciertos. La mayoría de los métodos existentes se basan en enfoques estáticos de recuperación semántica para el descubrimiento de herramientas o agentes. Sin embargo, la reutilización y composición efectiva de componentes existentes sigue siendo un desafío debido a descripciones incompletas de capacidades y las limitaciones de los métodos de recuperación. La selección de componentes se ve afectada porque las decisiones no se basan en la capacidad, el costo y la utilidad en tiempo real. Para abordar estos desafíos, presentamos un marco estructurado y automatizado para la composición de sistemas agentes inspirado en el problema de la mochila. Nuestro marco permite a un agente compositor identificar, seleccionar y ensamblar sistemáticamente un conjunto óptimo de componentes agentes considerando conjuntamente el rendimiento, las restricciones presupuestarias y la compatibilidad. Al probar dinámicamente componentes candidatos y modelar su utilidad en tiempo real, nuestro enfoque optimiza el ensamblaje de sistemas agentes y facilita la reutilización escalable de recursos. La evaluación empírica con Claude 3.5 Sonnet en cinco conjuntos de datos de referencia muestra que nuestro compositor basado en la mochila en línea se encuentra consistentemente en la frontera de Pareto, logrando tasas de éxito más altas con costos de componentes significativamente más bajos en comparación con nuestras líneas base. En la configuración de un solo agente, el compositor de mochila en línea muestra una mejora en la tasa de éxito de hasta un 31,6% en comparación con las líneas base de recuperación. En sistemas multiagente, el compositor de mochila en línea aumenta la tasa de éxito del 37% al 87% cuando los agentes se seleccionan de un inventario de más de 100 agentes. La brecha sustancial de rendimiento confirma la robusta adaptabilidad de nuestro método en diversos dominios y restricciones presupuestarias.
La transferencia de apariencia a activos 3D utilizando diferentes representaciones del objeto de apariencia, como imágenes o texto, ha despertado interés debido a su amplia gama de aplicaciones en industrias como los videojuegos, la realidad aumentada y la creación de contenido digital. Sin embargo, los métodos más avanzados aún fallan cuando la geometría entre el objeto de entrada y el objeto de apariencia es significativamente diferente. Un enfoque directo es aplicar directamente un modelo generativo 3D, pero demostramos que esto finalmente no produce resultados atractivos. En su lugar, proponemos un enfoque fundamentado inspirado en la guía universal. Dado un modelo de flujo rectificado preentrenado condicionado por imágenes o texto, nuestro método libre de entrenamiento interactúa con el proceso de muestreo añadiendo guía periódicamente. Esta guía puede modelarse como una función de pérdida diferenciable, y experimentamos con dos tipos diferentes de guía, incluyendo pérdidas conscientes de partes para la apariencia y autosimilitud. Nuestros experimentos muestran que nuestro enfoque transfiere con éxito texturas y detalles geométricos al activo 3D de entrada, superando cualitativa y cuantitativamente a los métodos de referencia. También demostramos que las métricas tradicionales no son adecuadas para evaluar esta tarea debido a su incapacidad para enfocarse en detalles locales y comparar entradas disímiles, en ausencia de datos de referencia. Por lo tanto, evaluamos la calidad de la transferencia de apariencia con un sistema basado en GPT que clasifica objetivamente las salidas, asegurando una evaluación robusta y similar a la humana, como lo confirma nuestro estudio de usuarios. Más allá de los escenarios mostrados, nuestro método es general y podría extenderse a diferentes tipos de modelos de difusión y funciones de guía.
La colaboración efectiva entre humanos e IA en tareas de razonamiento complejo requiere que los usuarios comprendan e interactúen con el proceso del modelo, no solo que reciban un resultado. Sin embargo, el texto monolítico generado por métodos como Cadena de Pensamiento (CoT) impide esto, ya que las interfaces actuales carecen de verbalización en tiempo real y de una interrupción robusta por parte del usuario. Presentamos AsyncVoice Agent, un sistema cuya arquitectura asíncrona desacopla un backend de modelo de lenguaje en streaming de un frontend conversacional de voz. Este diseño permite que la narración y la inferencia se ejecuten en paralelo, capacitando a los usuarios para interrumpir, consultar y dirigir el proceso de razonamiento del modelo en cualquier momento. Los benchmarks objetivos muestran que este enfoque reduce la latencia de interacción en más de 600 veces en comparación con líneas base monolíticas, al mismo tiempo que garantiza una alta fidelidad y una precisión competitiva en las tareas. Al permitir un diálogo bidireccional con el proceso de pensamiento de un modelo, AsyncVoice Agent ofrece un nuevo paradigma para construir sistemas humano-IA más efectivos, dirigibles y confiables para tareas de alto riesgo.
Los modelos de lenguaje de gran escala internalizan un compromiso estructural entre la veracidad y la adulación obsequiosa, surgido de una optimización de recompensas que confunde la utilidad con la sumisión cortés. Este sesgo latente, conocido como sicofancia, se manifiesta como una preferencia por el acuerdo con el usuario sobre el razonamiento basado en principios. Presentamos Beacon, un punto de referencia de elección forzada de una sola ronda que aísla este sesgo independientemente del contexto conversacional, permitiendo una medición precisa de la tensión entre la precisión factual y el sesgo sumiso. Las evaluaciones en doce modelos de última generación revelan que la sicofancia se descompone en sub-sesgos lingüísticos y afectivos estables, cada uno escalando con la capacidad del modelo. Además, proponemos intervenciones a nivel de indicación y de activación que modulan estos sesgos en direcciones opuestas, exponiendo la geometría interna de la alineación como una variedad dinámica entre la veracidad y el juicio socialmente complaciente. Beacon replantea la sicofancia como una forma medible de mala generalización normativa, proporcionando una base reproducible para estudiar y mitigar la deriva de alineación en sistemas generativos a gran escala.
El escalado en tiempo de prueba (TTS, por sus siglas en inglés) ha mejorado el rendimiento de los modelos de razonamiento (RMs) en diversas tareas, como matemáticas y programación, aunque su eficacia en la traducción automática (MT) sigue siendo poco explorada. Este artículo investiga si el aumento del cómputo en tiempo de inferencia mejora la calidad de la traducción. Evaluamos 12 RMs en un conjunto diverso de benchmarks de MT que abarcan múltiples dominios, examinando tres escenarios: traducción directa, extrapolación con razonamiento forzado y post-edición. Nuestros hallazgos muestran que, para RMs de propósito general, el TTS ofrece beneficios limitados e inconsistentes en la traducción directa, con un rendimiento que rápidamente se estanca. Sin embargo, la efectividad del TTS se desbloquea mediante el ajuste fino específico del dominio, que alinea el proceso de razonamiento del modelo con los requisitos de la tarea, lo que conduce a mejoras consistentes hasta alcanzar una profundidad de razonamiento óptima y autodeterminada. También encontramos que forzar a un modelo a razonar más allá de su punto de parada natural degrada consistentemente la calidad de la traducción. Por el contrario, el TTS resulta altamente efectivo en un contexto de post-edición, convirtiendo de manera confiable la autocorrección en un proceso beneficioso. Estos resultados indican que el valor del cómputo en tiempo de inferencia en MT no radica en mejorar la traducción de un solo paso con modelos generales, sino en aplicaciones específicas como flujos de trabajo de autocorrección de múltiples pasos y en combinación con modelos especializados en tareas.
A medida que los sistemas de IA avanzan, dependemos más de ellos para tomar decisiones con nosotros y por nosotros. Para garantizar que dichas decisiones estén alineadas con los valores humanos, es imperativo que entendamos no solo qué decisiones toman, sino también cómo llegan a esas decisiones. Los modelos de lenguaje de razonamiento, que proporcionan respuestas finales y trazas de pensamiento intermedias (parcialmente transparentes), presentan una oportunidad oportuna para estudiar el razonamiento procedimental de la IA. A diferencia de los problemas de matemáticas y código, que a menudo tienen respuestas objetivamente correctas, los dilemas morales son un excelente campo de prueba para la evaluación centrada en el proceso porque permiten múltiples conclusiones defendibles. Para ello, presentamos MoReBench: 1,000 escenarios morales, cada uno emparejado con un conjunto de criterios de rúbrica que los expertos consideran esenciales para incluir (o evitar) al razonar sobre los escenarios. MoReBench contiene más de 23 mil criterios, incluyendo la identificación de consideraciones morales, la ponderación de compensaciones y la entrega de recomendaciones accionables para cubrir casos en los que la IA asesora a los humanos en decisiones morales, así como en la toma de decisiones morales de manera autónoma. Por separado, hemos curado MoReBench-Theory: 150 ejemplos para probar si la IA puede razonar bajo cinco marcos principales de la ética normativa. Nuestros resultados muestran que las leyes de escalamiento y los puntos de referencia existentes en tareas de razonamiento matemático, de código y científico no logran predecir las habilidades de los modelos para realizar razonamiento moral. Los modelos también muestran parcialidad hacia marcos morales específicos (por ejemplo, el Utilitarismo Acto Benthamita y la Deontología Kantiana), lo que podría ser un efecto secundario de los paradigmas de entrenamiento populares. Juntos, estos puntos de referencia avanzan en la evaluación del razonamiento centrado en el proceso hacia una IA más segura y transparente.