Artículos de investigación en IA seleccionados diariamente con traducciones
El enfoque de Chain-of-Thought (CoT) ha demostrado mejorar el rendimiento de los Modelos de Lenguaje de Gran Escala (LLM) en diversas tareas. Con este método, los LLM parecen producir pasos de razonamiento similares a los humanos antes de proporcionar respuestas (conocido como razonamiento CoT), lo que a menudo lleva a la percepción de que realizan procesos inferenciales deliberados. Sin embargo, algunos hallazgos iniciales sugieren que el razonamiento CoT podría ser más superficial de lo que parece, lo que nos motiva a explorar más a fondo. En este artículo, estudiamos el razonamiento CoT desde una perspectiva de distribución de datos e investigamos si este refleja un sesgo inductivo estructurado aprendido de datos dentro de la distribución, permitiendo que el modelo genere condicionalmente caminos de razonamiento que se aproximen a los observados durante el entrenamiento. Por lo tanto, su efectividad está fundamentalmente limitada por el grado de discrepancia en la distribución entre los datos de entrenamiento y las consultas de prueba. Con esta perspectiva, analizamos el razonamiento CoT a través de tres dimensiones: tarea, longitud y formato. Para investigar cada dimensión, diseñamos DataAlchemy, un entorno aislado y controlado para entrenar LLM desde cero y sondearlos sistemáticamente bajo diversas condiciones de distribución. Nuestros resultados revelan que el razonamiento CoT es un espejismo frágil que desaparece cuando se lo lleva más allá de las distribuciones de entrenamiento. Este trabajo ofrece una comprensión más profunda de por qué y cuándo falla el razonamiento CoT, enfatizando el desafío continuo de lograr un razonamiento genuino y generalizable.
Estudios recientes han profundizado en la construcción de agentes autónomos capaces de realizar tareas complejas en computadoras basadas en Interfaces Gráficas de Usuario (GUI), con el potencial de revolucionar la interacción humano-computadora. A pesar de resultados alentadores, los esfuerzos existentes se centran principalmente en interacciones a corto plazo y dependen de verificaciones basadas únicamente en resultados, lo que limita su escalabilidad en aplicaciones GUI del mundo real que requieren descomposición y ejecución de tareas de largo alcance. En este trabajo, presentamos VeriGUI, un novedoso conjunto de datos GUI de cadena larga verificable diseñado para facilitar el desarrollo y evaluación de agentes GUI generalistas que operan en entornos informáticos realistas. Nuestro conjunto de datos enfatiza dos dimensiones críticas: (1) complejidad de cadena larga, con tareas descompuestas en una secuencia de subtareas interdependientes que abarcan cientos de pasos, diseñadas explícitamente para permitir que cualquier subtarea sirva como punto de partida válido; y (2) verificabilidad a nivel de subtarea, que permite diversas estrategias de exploración dentro de cada subtarea, asegurando que cada objetivo a nivel de subtarea sea verificable y consistente. El conjunto de datos consta de trayectorias de tareas GUI tanto en escritorio como en la web, anotadas por expertos humanos. Experimentos extensos en VeriGUI utilizando varios agentes con diferentes modelos base revelan brechas significativas en el manejo de tareas de largo alcance, destacando la necesidad de capacidades más robustas de planificación y toma de decisiones en los agentes GUI.
Las capacidades notables de los agentes impulsados por modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han permitido el desarrollo de sistemas sofisticados para abordar tareas complejas y de múltiples pasos, pero sus costos crecientes amenazan la escalabilidad y la accesibilidad. Este trabajo presenta el primer estudio sistemático del equilibrio entre eficiencia y efectividad en los sistemas de agentes modernos, abordando la necesidad crítica de diseños rentables sin sacrificar el rendimiento. Investigamos tres preguntas clave: (1) ¿Cuánta complejidad requieren inherentemente las tareas agentivas? (2) ¿Cuándo los módulos adicionales generan rendimientos decrecientes? (3) ¿Cuánta eficiencia se puede obtener mediante el diseño de marcos de agentes eficientes? A través de un análisis empírico en el benchmark GAIA, evaluamos el impacto de la selección del modelo base LLM, los diseños de los marcos de agentes y las estrategias de escalado en tiempo de prueba. Utilizando la métrica de costo por paso, cuantificamos el equilibrio entre eficiencia y rendimiento en estas dimensiones. Nuestros hallazgos informan el desarrollo de **Agentes Eficientes**, un marco de agentes novedoso que tiene una complejidad óptima para los requisitos de la tarea. Agentes Eficientes retiene el 96.7% del rendimiento de OWL, uno de los marcos de agentes de código abierto líderes, mientras reduce los costos operativos de 0.398 a 0.228, lo que resulta en una mejora del 28.4% en el costo por paso. Nuestro trabajo proporciona ideas prácticas para diseñar sistemas de agentes eficientes y de alto rendimiento, avanzando en la accesibilidad y sostenibilidad de las soluciones impulsadas por IA.
Presentamos Agent Lightning, un marco flexible y extensible que permite el entrenamiento basado en Aprendizaje por Refuerzo (RL) de Modelos de Lenguaje de Gran Escala (LLMs) para cualquier agente de IA. A diferencia de los métodos existentes que acoplan estrechamente el entrenamiento de RL con el agente o dependen de la concatenación de secuencias con enmascaramiento, Agent Lightning logra una completa desvinculación entre la ejecución y el entrenamiento del agente, permitiendo una integración sin problemas con agentes existentes desarrollados de diversas maneras (por ejemplo, utilizando marcos como LangChain, OpenAI Agents SDK, AutoGen, o construyéndolos desde cero) con casi CERO modificaciones de código. Al formular la ejecución del agente como un proceso de decisión de Markov, definimos una interfaz de datos unificada y proponemos un algoritmo de RL jerárquico, LightningRL, que incluye un módulo de asignación de créditos, permitiéndonos descomponer las trayectorias generadas por CUALQUIER agente en transiciones de entrenamiento. Esto permite que el RL maneje lógicas de interacción complejas, como escenarios multiagente y flujos de trabajo dinámicos. Para el diseño del sistema, introducimos una arquitectura de Desagregación Entrenamiento-Agente e incorporamos marcos de observabilidad de agentes en el tiempo de ejecución del agente, proporcionando una interfaz estandarizada de ajuste fino de agentes. Los experimentos en tareas de texto a SQL, generación aumentada con recuperación y uso de herramientas matemáticas demuestran mejoras estables y continuas, mostrando el potencial del marco para el entrenamiento y despliegue de agentes en el mundo real.
La investigación sobre las aplicaciones del Aprendizaje por Refuerzo (RL, por sus siglas en inglés) a los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se ha centrado principalmente en problemas de un solo turno, como el razonamiento matemático o la generación de código en una sola iteración. Aunque estos problemas pueden verse como MDPs (Procesos de Decisión de Markov) de múltiples turnos a nivel de tokens, esta perspectiva corresponde a un caso degenerado de interacción de múltiples turnos en el que el entorno no proporciona retroalimentación. Esto contrasta con muchos dominios del mundo real, como la ingeniería de software (SWE, por sus siglas en inglés), que requieren interacciones ricas de múltiples turnos con un entorno con estado que responde a cada acción con una observación no trivial. Para cerrar esta brecha, demostramos la aplicación exitosa de RL a este régimen general. Utilizando una versión modificada del algoritmo de Optimización de Política de Ventaja Desacoplada (DAPO, por sus siglas en inglés), entrenamos un agente basado en Qwen2.5-72B-Instruct para resolver tareas reales de ingeniería de software. Nuestro enfoque aumenta la tasa de éxito del agente en el benchmark SWE-bench Verified desde un 20% de rechazo en un modelo ajustado fino de referencia hasta un 39%, sin depender de ningún modelo maestro. En SWE-rebench, nuestro agente iguala o supera a modelos líderes de peso abierto como DeepSeek-V3-0324 y Qwen3-235B-A22B utilizando un andamiaje idéntico, ofreciendo un camino viable hacia la construcción de agentes autónomos más capaces para problemas complejos del mundo real basados en modelos abiertos.
La reutilización de grandes modelos de visión y lenguaje (LVLMs, por sus siglas en inglés) como agentes de uso informático (CUAs, por sus siglas en inglés) ha llevado a avances significativos, impulsados principalmente por datos etiquetados por humanos. Sin embargo, estos modelos suelen tener dificultades con software novedoso y especializado, especialmente en escenarios que carecen de anotaciones humanas. Para abordar este desafío, proponemos SEAgent, un marco de auto-evolución agentico que permite a los CUAs evolucionar de manera autónoma a través de interacciones con software desconocido. Específicamente, SEAgent capacita a los agentes de uso informático para dominar autónomamente entornos de software novedosos mediante el aprendizaje experiencial, donde los agentes exploran nuevo software, aprenden a través de un proceso iterativo de prueba y error, y abordan progresivamente tareas generadas automáticamente organizadas de simple a complejas. Para lograr este objetivo, diseñamos un Modelo de Estado del Mundo para la evaluación paso a paso de trayectorias, junto con un Generador de Plan de Estudios que produce tareas cada vez más diversas y desafiantes. La política del agente se actualiza mediante el aprendizaje experiencial, compuesto por la imitación adversaria de acciones fallidas y la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) sobre las acciones exitosas. Además, introducimos una estrategia de entrenamiento de especialista a generalista que integra conocimientos experienciales individuales de agentes especialistas, facilitando el desarrollo de un CUA generalista más fuerte capaz de una evolución autónoma continua. Este agente unificado finalmente logra un rendimiento que supera al de conjuntos de agentes especialistas individuales en su software especializado. Validamos la efectividad de SEAgent en cinco entornos de software novedosos dentro de OS-World. Nuestro enfoque logra una mejora significativa del 23.2% en la tasa de éxito, pasando del 11.3% al 34.5%, sobre un CUA de código abierto competitivo, es decir, UI-TARS.
Los agentes interactivos multimodales deben convertir observaciones visuales en bruto en secuencias coherentes de acciones condicionadas por el lenguaje, una capacidad que los modelos actuales de visión y lenguaje (VLMs) aún no poseen. Los esfuerzos previos en aprendizaje por refuerzo (RL) podrían, en principio, dotar a los VLMs de tales habilidades, pero rara vez han probado si los comportamientos aprendidos se generalizan más allá de sus simuladores de entrenamiento, y dependen ya sea de ajustes hiperparamétricos frágiles o de entornos de recompensa densa con baja variabilidad de estado. Presentamos Vision-Language Decoupled Actor-Critic (VL-DAC), un algoritmo de RL ligero y libre de hiperparámetros. VL-DAC aplica actualizaciones PPO a los tokens de acción mientras aprende el valor solo a nivel de paso del entorno: una disposición que, hasta donde sabemos, no se ha explorado previamente para VLMs o LLMs grandes. Este simple desacoplamiento elimina términos de ponderación inestables y produce una convergencia más rápida y confiable. Entrenar un solo VLM con VL-DAC en un simulador económico a la vez (MiniWorld, Gym-Cards, ALFWorld o WebShop) ya produce políticas que se generalizan ampliamente: +50\% relativo en BALROG (control agéntico centrado en juegos), +5\% relativo en la parte más difícil de VSI-Bench (planificación espacial) y +2\% en VisualWebBench (navegación web), todo ello sin degradar la precisión general de comprensión de imágenes. Estos resultados proporcionan la primera evidencia de que un algoritmo de RL simple puede entrenar VLMs completamente en mundos sintéticos económicos mientras ofrece mejoras medibles en puntos de referencia agénticos, de razonamiento espacial y de navegación web con imágenes reales.
La inteligencia social se ha convertido en una capacidad crítica para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), permitiéndoles participar de manera efectiva en tareas sociales del mundo real, como la adaptación, la persuasión, la colaboración y la negociación. El aprendizaje por refuerzo (RL, por sus siglas en inglés) es una opción natural para entrenar agentes socialmente inteligentes, ya que permite que los modelos aprendan estrategias sofisticadas directamente a través de interacciones sociales. Sin embargo, las interacciones sociales tienen dos características clave que establecen barreras para el entrenamiento con RL: (1) la observabilidad parcial, donde las expresiones tienen efectos indirectos y retardados que complican la asignación de crédito, y (2) la multidimensionalidad, donde comportamientos como la construcción de rapport o la búsqueda de conocimiento contribuyen indirectamente al logro de objetivos. Estas características hacen que el RL basado en procesos de decisión de Markov (MDP, por sus siglas en inglés) con recompensas unidimensionales a nivel de episodio sea ineficiente e inestable. Para abordar estos desafíos, proponemos Sotopia-RL, un marco novedoso que refina la retroalimentación gruesa a nivel de episodio en recompensas a nivel de expresión y multidimensionales. La asignación de crédito a nivel de expresión mitiga la observabilidad parcial al atribuir resultados a expresiones individuales, mientras que las recompensas multidimensionales capturan la riqueza completa de las interacciones sociales y reducen el hackeo de recompensas. Los experimentos en Sotopia, un entorno de aprendizaje social de código abierto, demuestran que Sotopia-RL alcanza puntuaciones de última generación en la finalización de objetivos sociales (7.17 en Sotopia-hard y 8.31 en Sotopia-full), superando significativamente a los enfoques existentes. Los estudios de ablación confirman la necesidad tanto de la asignación de crédito a nivel de expresión como del diseño de recompensas multidimensionales para el entrenamiento con RL. Nuestra implementación está disponible públicamente en: https://github.com/sotopia-lab/sotopia-rl.
La toxicidad de los fármacos sigue siendo un desafío importante en el desarrollo farmacéutico. Los modelos recientes de aprendizaje automático han mejorado la predicción de toxicidad in silico, pero su dependencia de datos anotados y la falta de interpretabilidad limitan su aplicabilidad. Esto restringe su capacidad para capturar toxicidades específicas de órganos impulsadas por mecanismos biológicos complejos. Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ofrecen una alternativa prometedora a través del razonamiento paso a paso y la integración de datos textuales, aunque enfoques previos carecen de contexto biológico y una justificación transparente. Para abordar este problema, proponemos CoTox, un marco novedoso que integra LLM con razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) para la predicción de múltiples toxicidades. CoTox combina datos de estructura química, vías biológicas y términos de ontología génica (GO) para generar predicciones de toxicidad interpretables mediante un razonamiento paso a paso. Utilizando GPT-4o, demostramos que CoTox supera tanto a los modelos tradicionales de aprendizaje automático como a los de aprendizaje profundo. Además, examinamos su rendimiento en varios LLMs para identificar dónde CoTox es más efectivo. También encontramos que representar las estructuras químicas con nombres IUPAC, que son más fáciles de entender para los LLMs que los SMILES, mejora la capacidad de razonamiento del modelo y aumenta su rendimiento predictivo. Para demostrar su utilidad práctica en el desarrollo de fármacos, simulamos el tratamiento de tipos celulares relevantes con un fármaco e incorporamos el contexto biológico resultante en el marco de CoTox. Este enfoque permite a CoTox generar predicciones de toxicidad alineadas con respuestas fisiológicas, como se muestra en un estudio de caso. Este resultado destaca el potencial de los marcos basados en LLMs para mejorar la interpretabilidad y apoyar la evaluación temprana de la seguridad de los fármacos. El código y las indicaciones utilizadas en este trabajo están disponibles en https://github.com/dmis-lab/CoTox.
Los modelos multimodales a gran escala han avanzado significativamente el desarrollo de agentes web, permitiendo la percepción e interacción con entornos digitales de manera similar a la cognición humana. En este artículo, argumentamos que los agentes web primero deben adquirir suficiente conocimiento para participar efectivamente en razonamientos cognitivos. Por lo tanto, descomponemos las capacidades de un agente web en dos etapas esenciales: el aprendizaje de contenido de conocimiento y los procesos cognitivos. Para formalizar esto, proponemos el Marco Web-CogKnowledge, que categoriza el conocimiento como Factual, Conceptual y Procedimental. En este marco, el aprendizaje de contenido de conocimiento corresponde a los procesos del agente de Memorizar y Comprender, que dependen de los dos primeros tipos de conocimiento, representando el "qué" del aprendizaje. Por el contrario, los procesos cognitivos corresponden a Explorar, basado en el conocimiento Procedimental, definiendo el "cómo" del razonamiento y la acción. Para facilitar la adquisición de conocimiento, construimos el Web-CogDataset, un recurso estructurado curado a partir de 14 sitios web del mundo real, diseñado para inculcar sistemáticamente el conocimiento central necesario para un agente web. Este conjunto de datos sirve como base conceptual del agente—los "sustantivos" sobre los cuales se construye la comprensión—así como la base para aprender a razonar y actuar. Sobre esta base, operacionalizamos estos procesos a través de un novedoso marco de razonamiento basado en conocimiento de Cadena de Pensamiento (CoT), desarrollando y entrenando nuestro agente propuesto, el Web-CogReasoner. Experimentos extensivos revelan su superioridad significativa sobre los modelos existentes, especialmente en la generalización a tareas no vistas donde el conocimiento estructurado es decisivo. Para permitir una evaluación rigurosa, presentamos el Web-CogBench, una suite de evaluación integral diseñada para evaluar y comparar el rendimiento de los agentes en los dominios de conocimiento y capacidades cognitivas delineados. Nuestro código y datos están disponibles en https://github.com/Gnonymous/Web-CogReasoner.
La conversión de diseños de páginas web en código (diseño-a-código) desempeña un papel crucial en el desarrollo de Interfaces de Usuario (UI) para desarrolladores front-end, cerrando la brecha entre el diseño visual y la implementación funcional. Aunque los Modelos de Lenguaje Multimodal (MLLMs) recientes han mostrado un potencial significativo en tareas de diseño-a-código, a menudo fallan en preservar con precisión el diseño durante la generación de código. Para abordar esto, nos inspiramos en el razonamiento de Cadena de Pensamiento (CoT) en la cognición humana y proponemos LaTCoder, un enfoque novedoso que mejora la preservación del diseño en la generación de código de páginas web mediante Diseño-como-Pensamiento (LaT). Específicamente, primero introducimos un algoritmo simple pero eficiente para dividir el diseño de la página web en bloques de imagen. Luego, utilizamos un enfoque basado en CoT para generar código para cada bloque mediante MLLMs. Finalmente, aplicamos dos estrategias de ensamblaje—posicionamiento absoluto y un método basado en MLLM—seguido de una selección dinámica para determinar la salida óptima. Evaluamos la efectividad de LaTCoder utilizando múltiples MLLMs base (es decir, DeepSeek-VL2, Gemini y GPT-4o) tanto en un benchmark público como en un nuevo y más desafiante benchmark (CC-HARD) que presenta diseños complejos. Los resultados experimentales en métricas automáticas demuestran mejoras significativas. Específicamente, las puntuaciones de TreeBLEU aumentaron en un 66.67% y el MAE disminuyó en un 38% al utilizar DeepSeek-VL2, en comparación con el enfoque de indicación directa. Además, los resultados de la evaluación de preferencia humana indican que los anotadores prefieren las páginas web generadas por LaTCoder en más del 60% de los casos, proporcionando una evidencia sólida de la efectividad de nuestro método.
La evaluación de modelos de generación de texto a imagen requiere una alineación con la percepción humana, sin embargo, las métricas centradas en el ser humano existentes están limitadas por una cobertura de datos reducida, una extracción de características subóptima y funciones de pérdida ineficientes. Para abordar estos desafíos, presentamos el Human Preference Score v3 (HPSv3). (1) Publicamos HPDv3, el primer conjunto de datos de preferencias humanas de amplio espectro que integra 1.08 millones de pares de texto-imagen y 1.17 millones de comparaciones pareadas anotadas, provenientes de modelos generativos de última generación y de imágenes del mundo real de baja a alta calidad. (2) Introducimos un modelo de preferencias basado en VLM (Vision-Language Model) entrenado utilizando una función de pérdida de clasificación consciente de la incertidumbre para una clasificación de grano fino. Además, proponemos Chain-of-Human-Preference (CoHP), un método iterativo de refinamiento de imágenes que mejora la calidad sin necesidad de datos adicionales, utilizando HPSv3 para seleccionar la mejor imagen en cada paso. Experimentos extensos demuestran que HPSv3 sirve como una métrica robusta para la evaluación de imágenes de amplio espectro, y que CoHP ofrece un enfoque eficiente y alineado con las preferencias humanas para mejorar la calidad de la generación de imágenes. El código y el conjunto de datos están disponibles en la página principal de HPSv3.
En este artículo, presentamos un marco novedoso para la generación de video-a-4D que crea contenido dinámico 3D de alta calidad a partir de entradas de video únicas. El modelado directo de difusión 4D es extremadamente desafiante debido al costoso proceso de construcción de datos y a la naturaleza de alta dimensión de representar conjuntamente la forma 3D, la apariencia y el movimiento. Abordamos estos desafíos introduciendo un VAE de Campo de Variación Directo 4DMesh-a-GS que codifica directamente Gaussian Splats (GS) canónicos y sus variaciones temporales a partir de datos de animación 3D sin ajuste por instancia, y comprime animaciones de alta dimensión en un espacio latente compacto. Basándonos en esta representación eficiente, entrenamos un modelo de difusión de Campo de Variación Gaussiana con un Transformer de Difusión consciente del tiempo, condicionado por videos de entrada y GS canónicos. Entrenado en objetos 3D animables cuidadosamente seleccionados del conjunto de datos Objaverse, nuestro modelo demuestra una calidad de generación superior en comparación con los métodos existentes. También exhibe una generalización notable para entradas de video en entornos no controlados, a pesar de haber sido entrenado exclusivamente con datos sintéticos, allanando el camino para la generación de contenido 3D animado de alta calidad. Página del proyecto: https://gvfdiffusion.github.io/.
La tecnología de prueba virtual de video (VTV) ha captado un considerable interés académico debido a sus prometedoras aplicaciones en publicidad de comercio electrónico y entretenimiento. Sin embargo, la mayoría de los métodos existentes de extremo a extremo dependen en gran medida de conjuntos de datos escasos centrados en prendas de vestir y no logran aprovechar eficazmente los conocimientos previos de modelos visuales avanzados y entradas en tiempo de prueba, lo que dificulta la preservación precisa de detalles finos de las prendas y la consistencia temporal en escenarios no restringidos. Para abordar estos desafíos, proponemos DreamVVT, un marco de dos etapas cuidadosamente diseñado basado en Transformadores de Difusión (DiTs), que es inherentemente capaz de aprovechar diversos datos no emparejados centrados en humanos para mejorar la adaptabilidad en escenarios del mundo real. Para aprovechar aún más el conocimiento previo de modelos preentrenados y entradas en tiempo de prueba, en la primera etapa, muestreamos cuadros representativos del video de entrada y utilizamos un modelo de prueba de múltiples cuadros integrado con un modelo de visión-lenguaje (VLM), para sintetizar imágenes de prueba de cuadros clave de alta fidelidad y semánticamente consistentes. Estas imágenes sirven como guía de apariencia complementaria para la generación de video posterior. En la segunda etapa, se extraen mapas de esqueleto junto con descripciones detalladas de movimiento y apariencia del contenido de entrada, y estos junto con las imágenes de prueba de cuadros clave se alimentan en un modelo de generación de video preentrenado mejorado con adaptadores LoRA. Esto asegura la coherencia temporal a largo plazo para regiones no vistas y permite movimientos dinámicos altamente plausibles. Experimentos cuantitativos y cualitativos extensos demuestran que DreamVVT supera a los métodos existentes en la preservación de contenido detallado de prendas y estabilidad temporal en escenarios del mundo real. Nuestra página del proyecto https://virtu-lab.github.io/
Las conferencias de Inteligencia Artificial (IA) son fundamentales para avanzar en la investigación, compartir conocimientos y fomentar la comunidad académica. Sin embargo, su rápida expansión ha hecho que el modelo centralizado de conferencias sea cada vez más insostenible. Este artículo ofrece un diagnóstico basado en datos de una crisis estructural que amenaza los objetivos fundamentales de la divulgación científica, la equidad y el bienestar comunitario. Identificamos cuatro áreas clave de tensión: (1) científicamente, con tasas de publicación por autor que se han más que duplicado en la última década, superando los 4.5 artículos anuales; (2) ambientalmente, con la huella de carbono de una sola conferencia que excede las emisiones diarias de la ciudad anfitriona; (3) psicológicamente, con el 71% del discurso en línea de la comunidad reflejando sentimientos negativos y el 35% mencionando preocupaciones sobre la salud mental; y (4) logísticamente, con la asistencia a conferencias destacadas como NeurIPS 2024 comenzando a superar la capacidad de los lugares. Estas presiones apuntan a un sistema desalineado con su misión central. En respuesta, proponemos el modelo de Conferencia Federada por la Comunidad (CFC, por sus siglas en inglés), que separa la revisión por pares, la presentación y la creación de redes en componentes organizados localmente pero coordinados globalmente, ofreciendo un camino más sostenible, inclusivo y resiliente para la investigación en IA.
Los modelos de lenguaje de gran escala (LLMs) permiten tareas de contexto extenso, pero enfrentan desafíos de eficiencia debido al crecimiento de la caché clave-valor (KV). Proponemos LeanK, un método basado en aprendizaje que poda los canales de la caché clave (K) no importantes aprovechando la esparsidad estática de canales. Con un novedoso proceso de entrenamiento en dos etapas, LeanK aprende una máscara estática a nivel de canal que puede satisfacer un ratio de esparsidad específico y los requisitos de alineación de hardware. LeanK reduce la memoria de GPU y acelera la decodificación sin sacrificar precisión. Los experimentos demuestran una reducción de hasta el 70% en la caché K y del 16%-18% en la memoria de la caché V. Un núcleo de decodificación personalizado permite una aceleración de 1.3x en el cálculo de atención. También proporcionamos insights sobre los canales del modelo y las cabezas de atención durante la inferencia de contexto extenso mediante el análisis de la distribución de importancia aprendida. Nuestro código está disponible en https://aka.ms/LeanK.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) experimentan una degradación significativa en su rendimiento al procesar contextos extensos debido a la interferencia proactiva, donde información irrelevante en las partes iniciales del contexto interrumpe el razonamiento y la recuperación de la memoria. Si bien la mayoría de las investigaciones se centran en sistemas de memoria externa para aumentar las capacidades de los LLMs, proponemos un enfoque complementario: dotar a los LLMs con herramientas de Gestión Activa del Contexto (ACM, por sus siglas en inglés) para esculpir activamente su memoria de trabajo interna. Presentamos Sculptor, un marco que equipa a los LLMs con tres categorías de herramientas: (1) fragmentación del contexto, (2) resumen, ocultación y restauración, y (3) búsqueda inteligente. Nuestro enfoque permite a los LLMs gestionar proactivamente su atención y memoria de trabajo, de manera análoga a cómo los humanos se enfocan selectivamente en información relevante mientras filtran distracciones. La evaluación experimental en benchmarks de información dispersa—PI-LLM (interferencia proactiva) y NeedleBench Multi-Needle Reasoning—demuestra que Sculptor mejora significativamente el rendimiento incluso sin entrenamiento específico, aprovechando las capacidades inherentes de generalización en el uso de herramientas de los LLMs. Al habilitar la Gestión Activa del Contexto, Sculptor no solo mitiga la interferencia proactiva, sino que también proporciona una base cognitiva para un razonamiento más confiable en diversas tareas de contexto extenso, destacando que las estrategias explícitas de control del contexto, en lugar de meramente ventanas de tokens más grandes, son clave para la robustez a gran escala.
La autoformalización tiene como objetivo traducir enunciados matemáticos en lenguaje natural a un lenguaje formal. Si bien los LLM han acelerado el progreso en esta área, los métodos existentes aún presentan una baja precisión. Identificamos dos habilidades clave para una autoformalización efectiva: un dominio exhaustivo del conocimiento del lenguaje formal y la capacidad de razonamiento para comprender problemas en lenguaje natural y alinear lo informal con lo formal. Sin la primera, un modelo no puede identificar los objetos formales correctos; sin la segunda, tiene dificultades para interpretar contextos del mundo real y mapearlos con precisión en expresiones formales. Para abordar estas brechas, presentamos ThinkingF, una canalización de síntesis de datos y entrenamiento que mejora ambas habilidades. Primero, construimos dos conjuntos de datos: uno mediante la destilación y selección de ejemplos a gran escala ricos en conocimiento formal, y otro generando trayectorias de razonamiento de informal a formal guiadas por plantillas diseñadas por expertos. Luego, aplicamos SFT y RLVR con estos conjuntos de datos para fusionar y refinar aún más las dos habilidades. Los modelos resultantes de 7B y 32B exhiben tanto un conocimiento formal exhaustivo como un fuerte razonamiento de informal a formal. En particular, StepFun-Formalizer-32B alcanza puntajes SOTA BEq@1 de 40.5% en FormalMATH-Lite y 26.7% en ProverBench, superando a todos los modelos generales y especializados anteriores.
Los modelos de lenguaje de gran escala permiten que los agentes realicen tareas de manera autónoma en entornos web abiertos. Sin embargo, a medida que evolucionan las amenazas ocultas en la web, los agentes web enfrentan el desafío de equilibrar el desempeño de las tareas con los riesgos emergentes durante operaciones de secuencia larga. Aunque este desafío es crítico, la investigación actual se limita a la optimización de un solo objetivo o a escenarios de una sola interacción, careciendo de la capacidad para la optimización colaborativa tanto de la seguridad como de la utilidad en entornos web. Para abordar esta brecha, proponemos HarmonyGuard, un marco colaborativo multiagente que aprovecha la mejora de políticas y la optimización de objetivos para mejorar conjuntamente tanto la utilidad como la seguridad. HarmonyGuard presenta una arquitectura multiagente caracterizada por dos capacidades fundamentales: (1) Mejora Adaptativa de Políticas: Introducimos el Agente de Políticas dentro de HarmonyGuard, que extrae y mantiene automáticamente políticas de seguridad estructuradas a partir de documentos externos no estructurados, mientras actualiza continuamente las políticas en respuesta a las amenazas en evolución. (2) Optimización de Doble Objetivo: Basado en los objetivos duales de seguridad y utilidad, el Agente de Utilidad integrado en HarmonyGuard realiza un razonamiento en tiempo real de tipo Markoviano para evaluar los objetivos y utiliza capacidades metacognitivas para su optimización. Evaluaciones extensas en múltiples benchmarks muestran que HarmonyGuard mejora el cumplimiento de políticas hasta en un 38% y la finalización de tareas hasta en un 20% en comparación con las líneas base existentes, logrando un cumplimiento de políticas superior al 90% en todas las tareas. Nuestro proyecto está disponible aquí: https://github.com/YurunChen/HarmonyGuard.
Los enfoques actuales para los modelos de lenguaje de audio a gran escala (LALMs, por sus siglas en inglés) suelen depender de fuentes de datos cerradas o modelos propietarios, lo que limita su generalización y accesibilidad. Este artículo presenta MiDashengLM, un novedoso modelo de lenguaje-audio abierto diseñado para una comprensión eficiente y exhaustiva del audio mediante el uso de descripciones generales de audio utilizando nuestro nuevo conjunto de datos de entrenamiento ACAVCaps. MiDashengLM se basa exclusivamente en conjuntos de datos de preentrenamiento y ajuste fino supervisado (SFT) disponibles públicamente, garantizando plena transparencia y reproducibilidad. En su núcleo, MiDashengLM integra Dasheng, un codificador de audio de código abierto, específicamente diseñado para procesar de manera efectiva información auditiva diversa. A diferencia de trabajos anteriores centrados principalmente en la alineación audio-texto basada en Reconocimiento Automático del Habla (ASR), nuestra estrategia se enfoca en descripciones generales de audio, fusionando información de voz, sonido y música en una representación textual única, permitiendo una representación textual holística de escenas auditivas complejas. Por último, MiDashengLM ofrece una aceleración de hasta 4 veces en términos de tiempo para el primer token (TTFT) y un rendimiento hasta 20 veces mayor que modelos comparables. Los puntos de control están disponibles en línea en https://huggingface.co/mispeech/midashenglm-7b y https://github.com/xiaomi-research/dasheng-lm.
La segmentación de instancias es fundamental en la imagen biomédica para distinguir con precisión objetos individuales como células, que a menudo se superponen y varían en tamaño. Los métodos recientes basados en consultas, donde las consultas de objetos guían la segmentación, han mostrado un rendimiento sólido. Si bien U-Net ha sido una arquitectura de referencia en la segmentación de imágenes médicas, su potencial en enfoques basados en consultas sigue siendo en gran parte inexplorado. En este trabajo, presentamos IAUNet, una novedosa arquitectura U-Net basada en consultas. El diseño central incluye una arquitectura U-Net completa, mejorada por un nuevo decodificador de píxeles convolucional ligero, lo que hace que el modelo sea más eficiente y reduce el número de parámetros. Además, proponemos un decodificador Transformer que refina las características específicas de los objetos a través de múltiples escalas. Finalmente, presentamos el Conjunto de Datos de Segmentación Completa de Células Revvity 2025, un recurso único con anotaciones detalladas del citoplasma de células superpuestas en imágenes de campo claro, estableciendo un nuevo estándar para la segmentación de instancias biomédicas. Los experimentos en múltiples conjuntos de datos públicos y en el nuestro muestran que IAUNet supera a la mayoría de los modelos más avanzados completamente convolucionales, basados en transformers, basados en consultas y específicos para la segmentación de células, estableciendo una línea base sólida para tareas de segmentación de instancias celulares. El código está disponible en https://github.com/SlavkoPrytula/IAUNet.
El reconocimiento de entidades nombradas (NER, por sus siglas en inglés) es fundamental para extraer información estructurada del más del 80% de los datos sanitarios que residen en notas clínicas no estructuradas y literatura biomédica. A pesar de los avances recientes con modelos de lenguaje de gran escala, lograr un rendimiento de vanguardia en diversos tipos de entidades manteniendo la eficiencia computacional sigue siendo un desafío significativo. Presentamos OpenMed NER, un conjunto de modelos transformadores de código abierto adaptados al dominio que combinan un preentrenamiento ligero adaptativo al dominio (DAPT) con la adaptación eficiente en parámetros de baja dimensión (LoRA). Nuestro enfoque realiza un DAPT rentable en un corpus de 350.000 pasajes compilado a partir de repositorios de investigación de acceso público y notas clínicas anonimizadas (PubMed, arXiv y MIMIC-III) utilizando arquitecturas como DeBERTa-v3, PubMedBERT y BioELECTRA. Esto es seguido por un ajuste fino específico de la tarea con LoRA, que actualiza menos del 1,5% de los parámetros del modelo. Evaluamos nuestros modelos en 12 puntos de referencia establecidos para NER biomédico que abarcan químicos, enfermedades, genes y especies. OpenMed NER alcanza nuevos puntajes micro-F1 de vanguardia en 10 de estos 12 conjuntos de datos, con mejoras sustanciales en diversos tipos de entidades. Nuestros modelos avanzan el estado del arte en puntos de referencia fundamentales de enfermedades y químicos (por ejemplo, BC5CDR-Disease, +2,70 pp), mientras ofrecen mejoras aún mayores de más de 5,3 y 9,7 puntos porcentuales en corpus más especializados de genes y líneas celulares clínicas. Este trabajo demuestra que los modelos de código abierto adaptados estratégicamente pueden superar a las soluciones de código cerrado. Este rendimiento se logra con una eficiencia notable: el entrenamiento se completa en menos de 12 horas en una sola GPU con una baja huella de carbono (< 1,2 kg CO2e), produciendo puntos de control de código abierto con licencias permisivas diseñados para ayudar a los profesionales a facilitar el cumplimiento de las normativas emergentes de protección de datos y regulaciones de IA, como la Ley de IA de la UE.
Las garantías de seguridad en tiempo de compilación de Rust lo hacen ideal para sistemas críticos en términos de seguridad, lo que genera una demanda para traducir bases de código C heredadas a Rust. Si bien han surgido diversos enfoques para esta tarea, enfrentan compensaciones inherentes: las soluciones basadas en reglas tienen dificultades para cumplir con los requisitos de seguridad y idiomáticidad del código, mientras que las soluciones basadas en LLM (Modelos de Lenguaje de Gran Escala) a menudo no logran generar código Rust semánticamente equivalente, debido a las fuertes dependencias de los módulos en toda la base de código. Estudios recientes han revelado que ambas soluciones están limitadas a programas de pequeña escala. En este artículo, proponemos EvoC2Rust, un marco automatizado para convertir proyectos completos de C a equivalentes en Rust. EvoC2Rust emplea una estrategia de traducción guiada por esqueleto para la traducción a nivel de proyecto. El proceso consta de tres etapas evolutivas: 1) primero descompone el proyecto C en módulos funcionales, utiliza un LLM mejorado con mapeo de características para transformar definiciones y macros, y genera esqueletos de funciones verificados por tipos, que forman un esqueleto Rust compilable; 2) luego traduce incrementalmente la función, reemplazando el marcador de posición correspondiente; 3) finalmente, repara errores de compilación integrando LLM y análisis estático. A través de la ampliación evolutiva, EvoC2Rust combina las ventajas de las soluciones basadas en reglas y en LLM. Nuestra evaluación en puntos de referencia de código abierto y seis proyectos industriales demuestra el rendimiento superior de EvoC2Rust en la traducción de C a Rust a nivel de proyecto. En promedio, logra mejoras del 17.24% y 14.32% en precisión sintáctica y semántica sobre los enfoques basados en LLM, junto con una tasa de seguridad del código un 96.79% mayor que las herramientas basadas en reglas. A nivel de módulo, EvoC2Rust alcanza tasas de compilación del 92.25% y de paso de pruebas del 89.53% en proyectos industriales, incluso para bases de código complejas y funciones largas.
Presentamos DPoser-X, un modelo previo basado en difusión para poses humanas 3D de cuerpo completo. Construir un modelo previo versátil y robusto para poses humanas de cuerpo completo sigue siendo un desafío debido a la complejidad inherente de las poses articuladas humanas y la escasez de conjuntos de datos de alta calidad de poses de cuerpo completo. Para abordar estas limitaciones, introducimos un modelo de Difusión como previo de poses corporales (DPoser) y lo extendemos a DPoser-X para el modelado expresivo de poses humanas de cuerpo completo. Nuestro enfoque unifica diversas tareas centradas en poses como problemas inversos, resolviéndolos mediante muestreo de difusión variacional. Para mejorar el rendimiento en aplicaciones posteriores, introducimos un novedoso método de programación de pasos de tiempo truncado específicamente diseñado para las características de los datos de poses. También proponemos un mecanismo de entrenamiento enmascarado que combina eficazmente conjuntos de datos de cuerpo completo y específicos de partes, permitiendo que nuestro modelo capture interdependencias entre partes del cuerpo mientras evita el sobreajuste a acciones específicas. Experimentos extensos demuestran la robustez y versatilidad de DPoser-X en múltiples benchmarks para el modelado de poses corporales, de manos, rostro y cuerpo completo. Nuestro modelo supera consistentemente a las alternativas más avanzadas, estableciendo un nuevo estándar para el modelado previo de poses humanas de cuerpo completo.
El Aprendizaje por Refuerzo con Recompensa Verificable (RLVR, por sus siglas en inglés) ha avanzado significativamente las capacidades de razonamiento complejo de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, enfrenta dificultades para superar los límites inherentes de capacidad del LLM base, debido a su estrategia esencialmente on-policy combinada con el amplio espacio de acciones y la recompensa dispersa de los LLMs. De manera crítica, RLVR puede llevar al colapso del límite de capacidad, reduciendo el alcance de resolución de problemas del LLM. Para abordar este problema, proponemos RL-PLUS, un novedoso enfoque de optimización de política híbrida para LLMs que sinergiza la explotación interna con datos externos para lograr capacidades de razonamiento más robustas y superar los límites de los modelos base. RL-PLUS integra dos componentes principales: el Muestreo de Importancia Múltiple para abordar el desajuste distribucional de los datos externos, y la Función de Ventaja Basada en Exploración para guiar al modelo hacia caminos de razonamiento de alto valor y no explorados. Proporcionamos tanto análisis teórico como experimentos extensos para demostrar la superioridad y generalizabilidad de nuestro enfoque. En comparación con los métodos RLVR existentes, RL-PLUS logra: 1) un rendimiento de vanguardia en seis benchmarks de razonamiento matemático; 2) un rendimiento superior en seis tareas de razonamiento fuera de distribución; 3) ganancias consistentes y significativas en diversas familias de modelos, con mejoras relativas promedio de hasta el 69,2%. Además, el análisis de las curvas Pass@k indica que RL-PLUS resuelve efectivamente el problema del colapso del límite de capacidad.
El grounding visual tiene como objetivo identificar objetos o regiones en una escena basándose en descripciones de lenguaje natural, siendo esencial para una percepción espacialmente consciente en la conducción autónoma. Sin embargo, las tareas de grounding visual existentes suelen depender de cuadros delimitadores que a menudo no capturan detalles finos. No todos los vóxeles dentro de un cuadro delimitador están ocupados, lo que resulta en representaciones inexactas de los objetos. Para abordar esto, presentamos un benchmark para el grounding de ocupación 3D en escenas exteriores desafiantes. Basado en el conjunto de datos nuScenes, integra lenguaje natural con anotaciones de ocupación a nivel de vóxel, ofreciendo una percepción de objetos más precisa en comparación con la tarea de grounding tradicional. Además, proponemos GroundingOcc, un modelo de extremo a extremo diseñado para el grounding de ocupación 3D mediante aprendizaje multimodal. Combina características visuales, textuales y de nube de puntos para predecir la ubicación y la información de ocupación de los objetos de manera gruesa a fina. Específicamente, GroundingOcc consta de un codificador multimodal para la extracción de características, una cabeza de ocupación para predicciones por vóxel y una cabeza de grounding para refinar la localización. Además, un módulo de grounding 2D y un módulo de estimación de profundidad mejoran la comprensión geométrica, potenciando así el rendimiento del modelo. Experimentos exhaustivos en el benchmark demuestran que nuestro método supera a los baselines existentes en el grounding de ocupación 3D. El conjunto de datos está disponible en https://github.com/RONINGOD/GroundingOcc.
La evaluación de factualidad de largo formato mide la capacidad de los modelos para generar respuestas precisas y completas a partir de indicaciones breves. Los puntos de referencia existentes a menudo carecen de verificación humana, lo que puede dar lugar a problemas de calidad. Para abordar esta limitación, presentamos FACTORY, un conjunto de indicaciones a gran escala verificado por humanos. Desarrollado mediante un enfoque de modelo-en-el-bucle y refinado por humanos, FACTORY incluye indicaciones desafiantes que buscan hechos, son respondibles y no ambiguas. Realizamos evaluaciones humanas en 6 modelos de lenguaje de última generación utilizando FACTORY y conjuntos de datos existentes. Nuestros resultados muestran que FACTORY es un punto de referencia desafiante: aproximadamente el 40% de las afirmaciones hechas en las respuestas de los modelos de última generación no son factuales, en comparación con solo el 10% en otros conjuntos de datos. Nuestro análisis identifica las fortalezas de FACTORY frente a puntos de referencia anteriores, destacando su fiabilidad y la necesidad de que los modelos razonen sobre hechos de cola larga.
El Análisis de Causa Raíz (RCA, por sus siglas en inglés) en redes móviles sigue siendo una tarea desafiante debido a la necesidad de interpretabilidad, experiencia en el dominio y razonamiento causal. En este trabajo, proponemos un marco ligero que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para el RCA. Para ello, presentamos TeleLogs, un conjunto de datos curado de problemas de resolución de fallos anotados diseñado para evaluar las capacidades de RCA. Nuestra evaluación revela que los LLMs de razonamiento de código abierto existentes tienen dificultades con estos problemas, lo que subraya la necesidad de una adaptación específica del dominio. Para abordar este problema, proponemos una metodología de entrenamiento en dos etapas que combina el ajuste fino supervisado con el aprendizaje por refuerzo para mejorar la precisión y la calidad del razonamiento de los LLMs. El enfoque propuesto ajusta una serie de modelos de RCA para integrar el conocimiento del dominio y generar explicaciones diagnósticas estructuradas y de múltiples pasos, mejorando tanto la interpretabilidad como la efectividad. Experimentos extensos en múltiples tamaños de LLMs muestran ganancias significativas en el rendimiento sobre los modelos de razonamiento y no razonamiento más avanzados, incluyendo una fuerte generalización a variantes de pruebas aleatorizadas. Estos resultados demuestran el potencial de los LLMs adaptados al dominio y mejorados en razonamiento para un RCA práctico y explicable en la operación y gestión de redes.
La conducción autónoma requiere una comprensión precisa de la escena, incluyendo la geometría de la carretera, los agentes de tráfico y sus relaciones semánticas. En escenarios de generación de mapas HD en línea, las representaciones basadas en ráster son adecuadas para modelos de visión pero carecen de precisión geométrica, mientras que las representaciones basadas en grafos conservan detalles estructurales pero se vuelven inestables sin mapas precisos. Para aprovechar las fortalezas complementarias de ambas, proponemos DiffSemanticFusion, un marco de fusión para la predicción y planificación multimodal de trayectorias. Nuestro enfoque razona sobre un espacio BEV fusionado con ráster semántico, mejorado por un módulo de difusión de mapas que aumenta tanto la estabilidad como la expresividad de las representaciones de mapas HD en línea. Validamos nuestro marco en dos tareas posteriores: predicción de trayectorias y conducción autónoma de extremo a extremo orientada a la planificación. Los experimentos en los puntos de referencia de conducción autónoma del mundo real, nuScenes y NAVSIM, demuestran un rendimiento mejorado en comparación con varios métodos de vanguardia. Para la tarea de predicción en nuScenes, integramos DiffSemanticFusion con QCNet informado por el mapa HD en línea, logrando una mejora del 5.1\% en el rendimiento. Para la conducción autónoma de extremo a extremo en NAVSIM, DiffSemanticFusion alcanza resultados de vanguardia, con una mejora del 15\% en escenarios NavHard. Además, extensos estudios de ablación y sensibilidad muestran que nuestro módulo de difusión de mapas puede integrarse sin problemas en otros enfoques basados en vectores para mejorar el rendimiento. Todos los artefactos están disponibles en https://github.com/SunZhigang7/DiffSemanticFusion.
La generación de texto a 3D (T23D) ha transformado la creación de contenido digital, pero sigue limitada por procesos de prueba y error ciegos que producen resultados impredecibles. Si bien la ingeniería de prompts visuales ha avanzado en los dominios de texto a imagen, su aplicación en la generación 3D presenta desafíos únicos que requieren evaluación de consistencia multi-vista y comprensión espacial. Presentamos Sel3DCraft, un sistema de ingeniería de prompts visuales para T23D que transforma la exploración no estructurada en un proceso visual guiado. Nuestro enfoque introduce tres innovaciones clave: una estructura de doble rama que combina recuperación y generación para la exploración de candidatos diversos; un enfoque de puntuación híbrida multi-vista que aprovecha los MLLMs con métricas innovadoras de alto nivel para evaluar modelos 3D con consistencia experta humana; y un conjunto de análisis visual basado en prompts que permite la identificación y refinamiento intuitivo de defectos. Pruebas exhaustivas y estudios de usuarios demuestran que Sel3DCraft supera a otros sistemas T23D en el apoyo a la creatividad de los diseñadores.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) mejora la capacidad de seguimiento de instrucciones de los modelos de lenguaje de gran escala (LLMs), pero sufre de ineficiencia en el entrenamiento debido a una evaluación inadecuada de la dificultad. Además, el RLVR es propenso a la sobreoptimización, donde los LLMs explotan atajos de verificación sin alinearse con la intención real de las instrucciones del usuario. Introducimos el Decorador de Seguimiento de Instrucciones (IFDecorator), un marco que integra el entrenamiento de RLVR en una canalización robusta y eficiente en términos de muestras. Este consta de tres componentes: (1) un volante de datos cooperativo-adversario que coevoluciona instrucciones y verificaciones híbridas, generando pares de instrucción-verificación progresivamente más desafiantes; (2) IntentCheck, un módulo de bypass que refuerza la alineación con la intención; y (3) trampas de diagnóstico, un mecanismo que detecta el hackeo de recompensas mediante instrucciones trampa, las cuales activan y capturan comportamientos de explotación de atajos. Nuestro Qwen2.5-32B-Instruct-IFDecorator alcanza un 87.43% de precisión en IFEval, superando a modelos propietarios más grandes como GPT-4o. Además, demostramos mejoras sustanciales en FollowBench mientras se preservan las capacidades generales. Nuestras trampas de diagnóstico muestran reducciones significativas en las tasas de hackeo de recompensas. Publicaremos modelos, código y datos para futuras investigaciones.
Si bien los avances en las capacidades de razonamiento de los LLM han mejorado significativamente su desempeño en la resolución de problemas matemáticos, tareas de programación y acertijos generales, su eficacia para adherirse con precisión a las instrucciones sigue siendo inconsistente, particularmente con directivas más complejas. Nuestra investigación identifica el razonamiento perezoso durante la etapa de pensamiento como el factor principal que contribuye a una mala adherencia a las instrucciones. Para mitigar este problema, proponemos un marco integral diseñado para habilitar procesos de razonamiento rigurosos que incluyen la previsualización y la autoverificación, esenciales para satisfacer restricciones estrictas de instrucciones. Específicamente, primero generamos instrucciones con restricciones complejas y aplicamos un proceso de filtrado para obtener indicaciones válidas, lo que resulta en tres conjuntos de datos de indicaciones categorizados como difíciles, fáciles y de paso. Luego, empleamos muestreo por rechazo en las indicaciones de paso para curar un conjunto de datos pequeño pero de alta calidad, permitiendo una inicialización de arranque en frío del modelo y facilitando su adaptación a patrones de razonamiento efectivos. Posteriormente, empleamos una estrategia de ajuste fino supervisado que preserva la entropía (Entropy-SFT) junto con un aprendizaje por refuerzo adaptativo de entropía por token (TEA-RL) guiado por recompensas densas basadas en reglas. Este enfoque fomenta que el modelo transforme su mecanismo de razonamiento, promoviendo finalmente habilidades de razonamiento generalizables que incluyen la previsualización y la autoverificación. Experimentos extensos realizados en puntos de referencia de seguimiento de instrucciones demuestran mejoras notables en el rendimiento en varias escalas de modelos. En particular, nuestro modelo Light-IF-32B supera tanto a modelos de código abierto más grandes como DeepSeek-R1 como a modelos de código cerrado como Doubao-1.6.
La detección de anomalías en 3D (AD, por sus siglas en inglés) ha demostrado un gran potencial en la identificación de anomalías o defectos en productos industriales de alta precisión. Sin embargo, los métodos existentes suelen entrenarse de manera específica para cada clase y carecen de la capacidad de aprender de clases emergentes. En este estudio, proponemos un marco de aprendizaje continuo denominado Detección Continua de Anomalías en 3D (C3D-AD), que no solo puede aprender representaciones generalizadas para nubes de puntos multiclase, sino también manejar nuevas clases que surgen con el tiempo. Específicamente, en el módulo de extracción de características, para extraer eficientemente características locales generalizadas de diversos tipos de productos en diferentes tareas, se introduce la Capa de Atención con Kernel y Características Aleatorias (KAL), que normaliza el espacio de características. Luego, para reconstruir los datos de manera correcta y continua, se propone un mecanismo eficiente de Atención con Kernel y Asesor Aprendible (KAA), que aprende la información de nuevas categorías mientras descarta la información antigua redundante tanto en el codificador como en el decodificador. Finalmente, para mantener la consistencia de la representación a lo largo de las tareas, se propone un módulo de Reconstrucción con Perturbación de Parámetros (RPP) mediante el diseño de una función de pérdida de ensayo de representación, que asegura que el modelo recuerde la información de categorías anteriores y devuelva una representación adaptativa a la categoría. Experimentos exhaustivos en tres conjuntos de datos públicos demuestran la efectividad del método propuesto, alcanzando un rendimiento promedio de 66.4%, 83.1% y 63.4% en AUROC para Real3D-AD, Anomaly-ShapeNet y MulSen-AD, respectivamente.
En este artículo, abordamos enfoques para gobernar, evaluar y cuantificar de manera sistemática el sesgo a lo largo del ciclo de vida completo de los modelos de aprendizaje automático, desde el desarrollo y validación inicial hasta el monitoreo continuo en producción y la implementación de salvaguardias. Basándonos en nuestro trabajo fundamental sobre el Conjunto de Pruebas de Evaluación y Valoración de Sesgos (BEATS) para Modelos de Lenguaje de Gran Escala (LLMs), los autores comparten brechas prevalentes relacionadas con el sesgo y la equidad en los LLMs y discuten un marco de gobernanza de datos e inteligencia artificial para abordar el Sesgo, la Ética, la Equidad y la Veracidad en los LLMs. El enfoque de gobernanza de datos e inteligencia artificial discutido en este artículo es adecuado para aplicaciones prácticas en el mundo real, permitiendo una evaluación rigurosa de los LLMs antes de su implementación en producción, facilitando una evaluación continua en tiempo real y gobernando de manera proactiva las respuestas generadas por los LLMs. Al implementar la gobernanza de datos e inteligencia artificial a lo largo del ciclo de vida del desarrollo de la IA, las organizaciones pueden mejorar significativamente la seguridad y la responsabilidad de sus sistemas de IA generativa, mitigando efectivamente los riesgos de discriminación y protegiéndose contra posibles daños reputacionales o relacionados con la marca. En última instancia, a través de este artículo, buscamos contribuir al avance de la creación y despliegue de aplicaciones impulsadas por inteligencia artificial generativa socialmente responsables y alineadas éticamente.
Las grabaciones musicales a menudo sufren problemas de calidad de audio, como reverberación excesiva, distorsión, recorte, desequilibrios tonales y una imagen estéreo reducida, especialmente cuando se crean en entornos no profesionales sin equipo especializado o experiencia. Estos problemas suelen corregirse utilizando herramientas especializadas separadas y ajustes manuales. En este artículo, presentamos SonicMaster, el primer modelo generativo unificado para la restauración y masterización de música que aborda un amplio espectro de artefactos de audio con control basado en texto. SonicMaster se condiciona mediante instrucciones en lenguaje natural para aplicar mejoras específicas, o puede operar en un modo automático para la restauración general. Para entrenar este modelo, construimos el conjunto de datos SonicMaster, un gran conjunto de datos de pistas degradadas y de alta calidad emparejadas, simulando tipos comunes de degradación con diecinueve funciones de degradación pertenecientes a cinco grupos de mejoras: ecualización, dinámica, reverberación, amplitud y estéreo. Nuestro enfoque aprovecha un paradigma de entrenamiento generativo de flujo coincidente para aprender una transformación de audio que mapea entradas degradadas a sus versiones limpias y masterizadas guiadas por indicaciones de texto. Las métricas objetivas de calidad de audio demuestran que SonicMaster mejora significativamente la calidad del sonido en todas las categorías de artefactos. Además, las pruebas de escucha subjetivas confirman que los oyentes prefieren las salidas mejoradas de SonicMaster sobre el audio degradado original, destacando la efectividad de nuestro enfoque unificado.
Los modelos de difusión de texto a imagen han demostrado capacidades notables en la generación de contenido artístico al aprender de miles de millones de imágenes, incluidas obras de arte populares. Sin embargo, la pregunta fundamental de cómo estos modelos representan internamente conceptos, como el contenido y el estilo en las pinturas, sigue sin explorarse. La visión por computadora tradicional asume que el contenido y el estilo son ortogonales, pero los modelos de difusión no reciben orientación explícita sobre esta distinción durante el entrenamiento. En este trabajo, investigamos cómo los modelos de difusión de texto a imagen basados en transformadores codifican los conceptos de contenido y estilo al generar obras de arte. Utilizamos mapas de calor de atención cruzada para atribuir píxeles en las imágenes generadas a tokens específicos del prompt, lo que nos permite aislar las regiones de la imagen influenciadas por tokens que describen contenido frente a aquellos que describen estilo. Nuestros hallazgos revelan que los modelos de difusión muestran distintos grados de separación entre contenido y estilo dependiendo del prompt artístico específico y del estilo solicitado. En muchos casos, los tokens de contenido influyen principalmente en las regiones relacionadas con objetos, mientras que los tokens de estilo afectan áreas de fondo y texturas, lo que sugiere una comprensión emergente de la distinción entre contenido y estilo. Estas contribuciones mejoran nuestra comprensión de cómo los modelos generativos a gran escala representan internamente conceptos artísticos complejos sin supervisión explícita. Compartimos el código y el conjunto de datos, junto con una herramienta exploratoria para visualizar mapas de atención en https://github.com/umilISLab/artistic-prompt-interpretation.