Artículos de investigación en IA seleccionados diariamente con traducciones
Aunque los modelos de lenguaje de gran escala (LLMs) basados en razonamiento han destacado en matemáticas y programación, sus capacidades en la respuesta a preguntas médicas intensivas en conocimiento siguen siendo poco exploradas. Para abordar esto, presentamos ReasonMed, el conjunto de datos de razonamiento médico más grande, que comprende 370k ejemplos de alta calidad destilados de 1.7 millones de rutas de razonamiento iniciales generadas por varios LLMs. ReasonMed se construye mediante un proceso de verificación y refinamiento multiagente, donde diseñamos un Refinador de Errores para mejorar las rutas de razonamiento identificando y corrigiendo pasos propensos a errores señalados por un verificador. Aprovechando ReasonMed, investigamos sistemáticamente las mejores prácticas para entrenar modelos de razonamiento médico y encontramos que combinar un razonamiento detallado de Cadena de Pensamiento (CoT) con resúmenes concisos de respuestas produce la estrategia de ajuste fino más efectiva. Basados en esta estrategia, entrenamos ReasonMed-7B, que establece un nuevo referente para modelos sub-10B, superando al mejor anterior en un 4.17% e incluso superando a LLaMA3.1-70B en PubMedQA en un 4.60%.
La construcción de conjuntos de datos a gran escala para la tarea de resolución de problemas en GitHub es crucial tanto para el entrenamiento como para la evaluación de las capacidades de ingeniería de software de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Sin embargo, el proceso tradicional para crear estos puntos de referencia es notoriamente desafiante y laborioso, particularmente en las etapas de configuración de entornos de evaluación, calificación de resultados de pruebas y validación de instancias de tareas. En este artículo, proponemos SWE-Factory, una canalización automatizada diseñada para abordar estos desafíos. Para resolver estos problemas, nuestra canalización integra tres componentes automatizados principales. Primero, presentamos SWE-Builder, un sistema multiagente que automatiza la construcción de entornos de evaluación, el cual emplea cuatro agentes especializados que trabajan en un ciclo colaborativo e iterativo y aprovecha un grupo de memoria de entorno para mejorar la eficiencia. Segundo, introducimos un método de calificación estandarizado basado en códigos de salida que elimina la necesidad de escribir manualmente analizadores personalizados. Finalmente, automatizamos el proceso de validación fail2pass utilizando estas señales confiables de códigos de salida. Los experimentos en 671 problemas en cuatro lenguajes de programación muestran que nuestra canalización puede construir efectivamente instancias de tareas válidas; por ejemplo, con GPT-4.1-mini, nuestro SWE-Builder construye 269 instancias válidas a un costo de 0.045 por instancia, mientras que con Gemini-2.5-flash, logra un rendimiento comparable al menor costo de 0.024 por instancia. También demostramos que nuestra calificación basada en códigos de salida alcanza un 100% de precisión en comparación con la inspección manual, y nuestra validación automatizada fail2pass alcanza una precisión de 0.92 y un recall de 1.00. Esperamos que nuestra canalización automatizada acelere la recopilación de conjuntos de datos de resolución de problemas en GitHub a gran escala y de alta calidad, tanto para entrenamiento como para evaluación. Nuestro código y conjuntos de datos están disponibles en https://github.com/DeepSoftwareAnalytics/swe-factory.
La restauración de imágenes tiene como objetivo recuperar imágenes degradadas. Sin embargo, los métodos de restauración basados en difusión existentes, a pesar de su gran éxito en la restauración de imágenes naturales, a menudo tienen dificultades para reconstruir fielmente las regiones textuales en imágenes degradadas. Estos métodos frecuentemente generan patrones similares a texto que son plausibles pero incorrectos, un fenómeno al que nos referimos como alucinación texto-imagen. En este artículo, presentamos la Restauración de Imágenes Consciente del Texto (TAIR, por sus siglas en inglés), una nueva tarea de restauración que requiere la recuperación simultánea de contenidos visuales y fidelidad textual. Para abordar esta tarea, presentamos SA-Text, un conjunto de datos de referencia a gran escala que contiene 100K imágenes de escenas de alta calidad, densamente anotadas con instancias de texto diversas y complejas. Además, proponemos un marco de difusión multitarea, llamado TeReDiff, que integra características internas de los modelos de difusión en un módulo de detección de texto, permitiendo que ambos componentes se beneficien de un entrenamiento conjunto. Esto permite la extracción de representaciones textuales ricas, que se utilizan como indicaciones en los pasos subsiguientes de eliminación de ruido. Experimentos exhaustivos demuestran que nuestro enfoque supera consistentemente a los métodos de restauración más avanzados, logrando mejoras significativas en la precisión del reconocimiento de texto. Consulte nuestra página del proyecto: https://cvlab-kaist.github.io/TAIR/.
A pesar de los rápidos avances en los modelos de generación de video, la creación de videos narrativos coherentes que abarquen múltiples escenas y personajes sigue siendo un desafío. Los métodos actuales suelen convertir de manera rígida fotogramas clave pregenerados en clips de longitud fija, lo que resulta en narrativas fragmentadas y problemas de ritmo. Además, la inherente inestabilidad de los modelos de generación de video implica que incluso un solo clip de baja calidad puede degradar significativamente la coherencia lógica y la continuidad visual de toda la animación generada. Para superar estos obstáculos, presentamos AniMaker, un marco de trabajo multiagente que permite la generación eficiente de múltiples candidatos de clips y la selección de clips consciente de la narrativa, creando así animaciones globalmente consistentes y coherentes con la historia únicamente a partir de texto de entrada. El marco está estructurado alrededor de agentes especializados, incluyendo el Agente Director para la generación de guiones gráficos, el Agente de Fotografía para la generación de clips de video, el Agente Revisor para la evaluación y el Agente de Postproducción para la edición y el doblaje. Centrales en el enfoque de AniMaker son dos componentes técnicos clave: MCTS-Gen en el Agente de Fotografía, una estrategia inspirada en la Búsqueda de Árbol de Monte Carlo (MCTS) que navega inteligentemente el espacio de candidatos para generar clips de alto potencial mientras optimiza el uso de recursos; y AniEval en el Agente Revisor, el primer marco diseñado específicamente para la evaluación de animaciones de múltiples tomas, que evalúa aspectos críticos como la consistencia a nivel de historia, la finalización de acciones y características específicas de la animación al considerar cada clip en el contexto de sus clips precedentes y sucesivos. Los experimentos demuestran que AniMaker logra una calidad superior medida por métricas populares como VBench y nuestro marco propuesto AniEval, mientras mejora significativamente la eficiencia en la generación de múltiples candidatos, acercando la animación narrativa generada por IA a los estándares de producción.
Presentamos Magistral, el primer modelo de razonamiento de Mistral y nuestra propia canalización escalable de aprendizaje por refuerzo (RL). En lugar de depender de implementaciones existentes y trazas de RL destiladas de modelos previos, seguimos un enfoque desde cero, basándonos únicamente en nuestros propios modelos e infraestructura. En particular, demostramos una pila que nos permitió explorar los límites del entrenamiento puro de RL en modelos de lenguaje grandes (LLMs), presentamos un método simple para forzar el lenguaje de razonamiento del modelo y mostramos que el RL aplicado únicamente a datos de texto conserva la mayoría de las capacidades del punto de control inicial. Encontramos que el RL en texto mantiene o mejora la comprensión multimodal, el seguimiento de instrucciones y la llamada de funciones. Presentamos Magistral Medium, entrenado para razonamiento sobre Mistral Medium 3 utilizando únicamente RL, y liberamos Magistral Small (Apache 2.0) que además incluye datos de arranque en frío de Magistral Medium.
Presentamos VRBench, el primer benchmark de videos narrativos extensos diseñado para evaluar las capacidades de razonamiento multi-paso de modelos grandes, abordando las limitaciones en las evaluaciones existentes que pasan por alto el razonamiento temporal y la validez procedimental. Este consta de 1,010 videos extensos (con una duración promedio de 1.6 horas), junto con 9,468 pares de preguntas y respuestas multi-paso etiquetadas por humanos y 30,292 pasos de razonamiento con marcas de tiempo. Estos videos fueron seleccionados mediante un proceso de filtrado multi-etapa que incluye la revisión por expertos para priorizar la coherencia narrativa. Desarrollamos un marco de colaboración humano-IA que genera cadenas de razonamiento coherentes, cada una de las cuales requiere múltiples pasos temporalmente fundamentados, abarcando siete tipos (por ejemplo, atribución de eventos, inferencia implícita). VRBench diseña una pipeline de evaluación multi-fase que evalúa los modelos tanto a nivel de resultados como de proceso. Además de las preguntas de opción múltiple (MCQ) para los resultados finales, proponemos una métrica de puntuación guiada por LLM a nivel de progreso para evaluar la calidad de la cadena de razonamiento desde múltiples dimensiones de manera integral. A través de evaluaciones extensas de 12 LLMs y 16 VLMs en VRBench, realizamos un análisis exhaustivo y proporcionamos insights valiosos que avanzan el campo del razonamiento multi-paso.
Los tokens de audio discretos son representaciones compactas que buscan preservar la calidad perceptual, el contenido fonético y las características del hablante, al mismo tiempo que permiten un almacenamiento e inferencia eficientes, así como un rendimiento competitivo en diversas tareas posteriores. Ofrecen una alternativa práctica a las características continuas, facilitando la integración del habla y el audio en los modelos modernos de lenguaje de gran escala (LLMs, por sus siglas en inglés). A medida que crece el interés en el procesamiento de audio basado en tokens, han surgido diversos métodos de tokenización, y varios estudios han revisado los avances más recientes en este campo. Sin embargo, los trabajos existentes suelen centrarse en dominios o tareas específicos y carecen de una comparación unificada en varios puntos de referencia. Este artículo presenta una revisión sistemática y una evaluación comparativa de tokenizadores de audio discretos, abarcando tres dominios: habla, música y audio general. Proponemos una taxonomía de enfoques de tokenización basada en técnicas de codificador-decodificador, cuantización, paradigmas de entrenamiento, capacidad de transmisión en flujo y dominios de aplicación. Evaluamos los tokenizadores en múltiples puntos de referencia para la reconstrucción, el rendimiento en tareas posteriores y el modelado de lenguaje acústico, y analizamos las compensaciones mediante estudios de ablación controlados. Nuestros hallazgos destacan limitaciones clave, consideraciones prácticas y desafíos abiertos, ofreciendo perspectivas y orientación para futuras investigaciones en esta área en rápida evolución. Para obtener más información, incluidos nuestros principales resultados y la base de datos de tokenizadores, consulte nuestro sitio web: https://poonehmousavi.github.io/dates-website/.
Presentamos Domain2Vec, un enfoque novedoso que descompone cualquier conjunto de datos en una combinación lineal de varios meta-dominios, un nuevo concepto diseñado para capturar las características subyacentes clave de los conjuntos de datos. Domain2Vec mantiene un vocabulario de meta-dominios y utiliza un clasificador para descomponer cualquier conjunto de datos dado en un vector de dominio que corresponde a una distribución sobre este vocabulario. Estos vectores de dominio permiten la identificación de la mezcla óptima de datos para el preentrenamiento de modelos de lenguaje (LM) de manera libre de entrenamiento bajo la **Suposición de Alineación de Distribución** (DA²), la cual sugiere que cuando las distribuciones de datos del conjunto de entrenamiento y del conjunto de validación están mejor alineadas, se logra una pérdida de validación más baja. Además, Domain2Vec puede integrarse sin problemas en trabajos previos para modelar la relación entre los vectores de dominio y el rendimiento del LM, mejorando significativamente la eficiencia y escalabilidad de los métodos anteriores. Experimentos extensivos demuestran que Domain2Vec ayuda a encontrar la mezcla de datos que mejora el rendimiento en tareas posteriores con un mínimo sobrecarga computacional. Específicamente, Domain2Vec logra la misma pérdida de validación en Pile-CC utilizando solo el 51.5% del cómputo requerido al entrenar con la mezcla original del conjunto de datos The Pile. Bajo un presupuesto computacional equivalente, Domain2Vec mejora el rendimiento en tareas posteriores en un promedio del 2.83%.
Recientemente, los agentes basados en modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances notables en diversos dominios. Sin embargo, construir un agente generalista con capacidades como percepción, planificación, acción, fundamentación y reflexión en entornos de mundo abierto como Minecraft sigue presentando desafíos: datos insuficientes específicos del dominio, interferencia entre tareas heterogéneas y diversidad visual en entornos de mundo abierto. En este artículo, abordamos estos desafíos a través de tres contribuciones clave. 1) Proponemos una canalización de generación de datos mejorada con conocimiento para proporcionar datos de entrenamiento escalables y de alta calidad para el desarrollo de agentes. 2) Para mitigar la interferencia entre tareas heterogéneas, introducimos una arquitectura de Mezcla de Expertos (MoE, por sus siglas en inglés) con enrutamiento a nivel de tarea. 3) Desarrollamos un enfoque de Aprendizaje por Refuerzo Aumentado con Razonamiento Multimodal para mejorar la capacidad de razonamiento del agente frente a la diversidad visual en Minecraft. Sobre la base de estas innovaciones, presentamos Optimus-3, un agente de propósito general para Minecraft. Los resultados experimentales extensivos demuestran que Optimus-3 supera tanto a los modelos de lenguaje multimodal generalistas como a los agentes existentes más avanzados en una amplia gama de tareas en el entorno de Minecraft. Página del proyecto: https://cybertronagent.github.io/Optimus-3.github.io/
Generar carteles estéticos es más desafiante que crear imágenes de diseño simples: no solo requiere una representación precisa del texto, sino también la integración fluida de contenido artístico abstracto, diseños impactantes y una armonía estilística general. Para abordar este desafío, proponemos PosterCraft, un marco unificado que abandona los enfoques modulares previos y los diseños rígidos predefinidos, permitiendo que el modelo explore libremente composiciones coherentes y visualmente atractivas. PosterCraft emplea un flujo de trabajo en cascada cuidadosamente diseñado para optimizar la generación de carteles de alta estética: (i) optimización a gran escala de la representación de texto en nuestro nuevo conjunto de datos Text-Render-2M; (ii) ajuste fino supervisado con conciencia de región en HQ-Poster100K; (iii) aprendizaje de refuerzo estético-textual mediante optimización de preferencias best-of-n; y (iv) refinamiento conjunto mediante retroalimentación visión-lenguaje. Cada etapa está respaldada por una canalización de construcción de datos completamente automatizada, adaptada a sus necesidades específicas, lo que permite un entrenamiento robusto sin modificaciones arquitectónicas complejas. Evaluado en múltiples experimentos, PosterCraft supera significativamente a las líneas base de código abierto en precisión de representación, coherencia de diseño y atractivo visual general, acercándose a la calidad de los sistemas comerciales más avanzados (SOTA). Nuestro código, modelos y conjuntos de datos están disponibles en la página del proyecto: https://ephemeral182.github.io/PosterCraft.
Los métodos recientes de guía en modelos de difusión dirigen el muestreo inverso perturbando el modelo para construir un modelo débil implícito y guiar la generación lejos de él. Entre estos enfoques, la perturbación de atención ha demostrado un fuerte rendimiento empírico en escenarios incondicionales donde la guía libre de clasificadores no es aplicable. Sin embargo, los métodos existentes de perturbación de atención carecen de enfoques fundamentados para determinar dónde deberían aplicarse las perturbaciones, particularmente en arquitecturas de Transformadores de Difusión (DiT), donde los cálculos relevantes para la calidad están distribuidos en múltiples capas. En este artículo, investigamos la granularidad de las perturbaciones de atención, desde el nivel de capa hasta cabezas de atención individuales, y descubrimos que cabezas específicas gobiernan conceptos visuales distintos, como estructura, estilo y calidad de textura. Basándonos en esta idea, proponemos "HeadHunter", un marco sistemático para seleccionar iterativamente cabezas de atención que se alinean con objetivos centrados en el usuario, permitiendo un control fino sobre la calidad de generación y los atributos visuales. Además, introducimos SoftPAG, que interpola linealmente el mapa de atención de cada cabeza seleccionada hacia una matriz identidad, proporcionando un control continuo para ajustar la fuerza de la perturbación y suprimir artefactos. Nuestro enfoque no solo mitiga los problemas de suavizado excesivo de las perturbaciones a nivel de capa existentes, sino que también permite la manipulación dirigida de estilos visuales específicos mediante la selección composicional de cabezas. Validamos nuestro método en modelos modernos de texto a imagen basados en DiT a gran escala, incluyendo Stable Diffusion 3 y FLUX.1, demostrando un rendimiento superior tanto en la mejora general de la calidad como en la guía específica de estilos. Nuestro trabajo proporciona el primer análisis a nivel de cabezas de la perturbación de atención en modelos de difusión, revelando una especialización interpretable dentro de las capas de atención y permitiendo el diseño práctico de estrategias de perturbación efectivas.
Proponemos Ming-Omni, un modelo multimodal unificado capaz de procesar imágenes, texto, audio y video, demostrando una gran competencia tanto en la generación de voz como de imágenes. Ming-Omni emplea codificadores dedicados para extraer tokens de diferentes modalidades, los cuales son procesados por Ling, una arquitectura MoE equipada con enrutadores específicos para cada modalidad recientemente propuestos. Este diseño permite que un solo modelo procese y fusione eficientemente entradas multimodales dentro de un marco unificado, facilitando así diversas tareas sin requerir modelos separados, ajustes específicos para cada tarea o rediseños estructurales. Es importante destacar que Ming-Omni va más allá de los modelos multimodales convencionales al soportar la generación de audio e imágenes. Esto se logra mediante la integración de un decodificador de audio avanzado para la generación de voz natural y Ming-Lite-Uni para la generación de imágenes de alta calidad, lo que también permite al modelo participar en conversaciones conscientes del contexto, realizar conversiones de texto a voz y llevar a cabo ediciones de imágenes versátiles. Nuestros resultados experimentales demuestran que Ming-Omni ofrece una solución poderosa para la percepción y generación unificadas en todas las modalidades. Cabe destacar que nuestro modelo propuesto, Ming-Omni, es el primer modelo de código abierto que conocemos que iguala a GPT-4o en soporte de modalidades, y liberamos todo el código y los pesos del modelo para fomentar una mayor investigación y desarrollo en la comunidad.
¿Qué tan rentable es elicitar un razonamiento sólido en modelos de lenguaje aprovechando sus representaciones subyacentes? Respondemos a esta pregunta con Resa, una familia de modelos de razonamiento de 1.5B entrenados mediante un novedoso y eficiente procedimiento de ajuste de autoencoder disperso (SAE-Tuning). Este método primero entrena un SAE para capturar habilidades de razonamiento de un modelo fuente y luego utiliza el SAE entrenado para guiar un proceso de ajuste fino supervisado estándar, con el fin de elicitar dichas habilidades en un modelo objetivo, todo utilizando datos verificados de preguntas y respuestas sin rastros de razonamiento. Notablemente, cuando se aplica a ciertos modelos base antes de un entrenamiento adicional con aprendizaje por refuerzo (RL), SAE-Tuning retiene más del 97% del rendimiento de razonamiento de su contraparte entrenada con RL, mientras reduce los costos de entrenamiento en más de 2000 veces a aproximadamente \$1 y el tiempo de entrenamiento en más de 450 veces a alrededor de 20 minutos. Además, cuando se aplica a modelos ligeramente entrenados con RL (por ejemplo, en 1 hora con 2 GPUs), permite un rendimiento de razonamiento como 43.33% Pass@1 en AIME24 y 90% Pass@1 en AMC23 por un costo adicional de aproximadamente \$1. Sorprendentemente, las habilidades de razonamiento extraídas mediante SAEs son potencialmente generalizables y modulares. La generalidad significa que las habilidades extraídas de un conjunto de datos aún mejoran el rendimiento en un corpus más grande y superpuesto. La modularidad significa que las habilidades extraídas de Qwen o Qwen-Math pueden adjuntarse al modelo R1-Distill en tiempo de prueba, sin necesidad de reentrenamiento, y producir ganancias comparables. Ablaciones extensas validan estos hallazgos y todos los artefactos están completamente abiertos al público.
Los agentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado un gran potencial para abordar problemas de ciencia de datos del mundo real. Los agentes de ciencia de datos impulsados por LLM prometen automatizar todo el flujo de trabajo de aprendizaje automático, aunque su efectividad en escenarios reales sigue siendo limitada. Los marcos existentes dependen de flujos de trabajo rígidos y predefinidos, así como de estrategias de codificación inflexibles; como resultado, solo destacan en problemas relativamente simples y clásicos, y no logran capturar la experiencia empírica que los profesionales humanos aportan a tareas complejas e innovadoras. En este trabajo, presentamos AutoMind, un marco de agente LLM adaptativo y experto que supera estas deficiencias mediante tres avances clave: (1) una base de conocimiento experto curada que fundamenta al agente en el conocimiento del dominio, (2) un algoritmo de búsqueda en árbol con conocimiento agéntico que explora estratégicamente posibles soluciones, y (3) una estrategia de codificación auto-adaptativa que ajusta dinámicamente la generación de código según la complejidad de la tarea. Las evaluaciones en dos benchmarks automatizados de ciencia de datos demuestran que AutoMind ofrece un rendimiento superior en comparación con los enfoques más avanzados. Análisis adicionales confirman una efectividad, eficiencia y calidad cualitativa de las soluciones favorables, destacando a AutoMind como un paso eficiente y robusto hacia la ciencia de datos completamente automatizada.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y sus contrapartes multimodales han generado un interés significativo en el desarrollo de agentes web: sistemas de inteligencia artificial capaces de navegar y completar tareas de manera autónoma en entornos web. Aunque prometen enormemente automatizar interacciones web complejas, los enfoques actuales enfrentan desafíos sustanciales debido a la discrepancia fundamental entre las interfaces diseñadas para humanos y las capacidades de los LLMs. Los métodos actuales luchan con la complejidad inherente de las entradas web, ya sea procesando árboles DOM masivos, dependiendo de capturas de pantalla complementadas con información adicional o evitando completamente la interfaz de usuario mediante interacciones con API. Este documento de posición aboga por un cambio de paradigma en la investigación de agentes web: en lugar de forzar a los agentes web a adaptarse a interfaces diseñadas para humanos, deberíamos desarrollar un nuevo paradigma de interacción específicamente optimizado para capacidades agentivas. Con este fin, introducimos el concepto de una Interfaz Web Agentiva (AWI, por sus siglas en inglés), una interfaz diseñada específicamente para que los agentes naveguen por un sitio web. Establecemos seis principios rectores para el diseño de AWI, enfatizando la seguridad, la eficiencia y la estandarización, para tener en cuenta los intereses de todas las partes interesadas principales. Este replanteamiento busca superar las limitaciones fundamentales de las interfaces existentes, allanando el camino para un diseño de agentes web más eficiente, confiable y transparente, que será un esfuerzo colaborativo que involucrará a la comunidad más amplia de aprendizaje automático.
La comprensión de videos largos (LVU, por sus siglas en inglés) representa un desafío significativo para los modelos de lenguaje multimodal de gran escala (MLLMs) actuales, debido a la complejidad inherente de la tarea y a las limitaciones de la ventana de contexto. Se asume ampliamente que abordar tareas de LVU requiere MLLMs fundamentales con ventanas de contexto extendidas, capacidades sólidas de percepción visual y experiencia especializada en el dominio. En este trabajo, cuestionamos esta creencia común al presentar VideoDeepResearch, un marco agente novedoso para la comprensión de videos largos. Nuestro enfoque se basa únicamente en un modelo de razonamiento de gran escala (LRM) exclusivamente textual, combinado con un kit de herramientas multimodal modular, que incluye recuperadores multimodales y perceptores visuales, todos ellos fácilmente disponibles en la práctica. Para cada tarea de LVU, el sistema formula una estrategia de resolución de problemas mediante razonamiento, mientras accede y utiliza selectivamente el contenido esencial del video mediante el uso de herramientas. Realizamos experimentos exhaustivos en puntos de referencia populares de LVU, incluyendo MLVU, Video-MME y LVBench. Nuestros resultados demuestran que VideoDeepResearch logra mejoras sustanciales sobre los MLLMs de referencia existentes, superando el estado del arte anterior en un 9.6%, 6.6% y 3.9% en MLVU (prueba), LVBench y LongVideoBench, respectivamente. Estos hallazgos resaltan el potencial de los sistemas agentes para superar los desafíos clave en los problemas de LVU.
El diseño gráfico desempeña un papel crucial tanto en contextos comerciales como personales, sin embargo, la creación de composiciones gráficas de alta calidad, editables y estéticamente atractivas sigue siendo una tarea que consume tiempo y requiere habilidades especializadas, especialmente para principiantes. Las herramientas actuales de IA automatizan partes del flujo de trabajo, pero tienen dificultades para incorporar con precisión los recursos proporcionados por el usuario, mantener la editabilidad y lograr un atractivo visual profesional. Los sistemas comerciales, como Canva Magic Design, dependen de vastas bibliotecas de plantillas, lo que resulta poco práctico para replicar. En este artículo, presentamos CreatiPoster, un marco que genera composiciones editables de múltiples capas a partir de instrucciones en lenguaje natural o recursos opcionales. Un modelo de protocolo, un modelo multimodal grande RGBA, primero produce una especificación JSON que detalla cada capa (texto o recurso) con un diseño preciso, jerarquía, contenido y estilo, además de un breve indicador de fondo. Luego, un modelo de fondo condicional sintetiza un fondo coherente condicionado por estas capas de primer plano renderizadas. Construimos un punto de referencia con métricas automatizadas para la generación de diseño gráfico y demostramos que CreatiPoster supera a los enfoques de código abierto líderes y a los sistemas comerciales propietarios. Para catalizar futuras investigaciones, publicamos un corpus libre de derechos de autor de 100,000 diseños de múltiples capas. CreatiPoster admite diversas aplicaciones como la edición de lienzos, la superposición de texto, el redimensionamiento responsivo, la adaptación multilingüe y los carteles animados, avanzando en la democratización del diseño gráfico asistido por IA. Página del proyecto: https://github.com/graphic-design-ai/creatiposter
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han aplicado cada vez más a tareas de detección automatizada de contenido dañino, ayudando a los moderadores a identificar violaciones de políticas y mejorando la eficiencia y precisión general de la revisión de contenido. Sin embargo, los recursos existentes para la detección de contenido dañino se centran predominantemente en el inglés, siendo los conjuntos de datos en chino escasos y a menudo limitados en alcance. Presentamos un punto de referencia integral y profesionalmente anotado para la detección de contenido dañino en chino, que cubre seis categorías representativas y está construido completamente a partir de datos del mundo real. Nuestro proceso de anotación también produce una base de reglas de conocimiento que proporciona conocimiento experto explícito para ayudar a los LLMs en la detección de contenido dañino en chino. Además, proponemos una línea base aumentada con conocimiento que integra tanto reglas de conocimiento anotadas por humanos como conocimiento implícito de modelos de lenguaje de gran escala, permitiendo que modelos más pequeños alcancen un rendimiento comparable al de los LLMs más avanzados. El código y los datos están disponibles en https://github.com/zjunlp/ChineseHarm-bench.
Los recientes avances en modelos fundacionales multimodales que unifican la comprensión y generación de imágenes han abierto nuevas y emocionantes vías para abordar una amplia gama de tareas de visión y lenguaje dentro de un único marco. A pesar del progreso, los modelos unificados existentes suelen requerir un extenso preentrenamiento y luchan por alcanzar el mismo nivel de rendimiento en comparación con modelos dedicados a cada tarea. Además, muchos de estos modelos sufren de velocidades lentas en la generación de imágenes, lo que limita su implementación práctica en entornos en tiempo real o con recursos limitados. En este trabajo, proponemos Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), una arquitectura novedosa y eficiente que unifica la comprensión y generación de imágenes dentro de un único modelo multimodal. LaTtE-Flow se basa en potentes modelos de visión y lenguaje (VLMs) preentrenados para heredar capacidades sólidas de comprensión multimodal, y los extiende con una arquitectura novedosa basada en flujo de expertos por capas y pasos de tiempo para una generación eficiente de imágenes. LaTtE-Flow distribuye el proceso de emparejamiento de flujo entre grupos especializados de capas Transformer, cada uno responsable de un subconjunto distinto de pasos de tiempo. Este diseño mejora significativamente la eficiencia de muestreo al activar solo un pequeño subconjunto de capas en cada paso de muestreo. Para mejorar aún más el rendimiento, proponemos un mecanismo de Atención Residual Condicionada por Pasos de Tiempo para la reutilización eficiente de información entre capas. Los experimentos demuestran que LaTtE-Flow logra un rendimiento sólido en tareas de comprensión multimodal, al tiempo que alcanza una calidad competitiva en la generación de imágenes con una velocidad de inferencia aproximadamente 6 veces más rápida en comparación con modelos multimodales unificados recientes.
Shojaee et al. (2025) informan que los Modelos de Razonamiento a Gran Escala (LRMs) exhiben un "colapso de precisión" en rompecabezas de planificación más allá de ciertos umbrales de complejidad. Demostramos que sus hallazgos reflejan principalmente limitaciones en el diseño experimental en lugar de fallos fundamentales de razonamiento. Nuestro análisis revela tres problemas críticos: (1) Los experimentos de la Torre de Hanói superan sistemáticamente los límites de tokens de salida del modelo en los puntos de fallo reportados, con los modelos reconociendo explícitamente estas restricciones en sus salidas; (2) El marco de evaluación automatizado de los autores no logra distinguir entre fallos de razonamiento y restricciones prácticas, lo que lleva a una clasificación errónea de las capacidades del modelo; (3) Lo más preocupante es que sus pruebas de Cruce del Río incluyen instancias matemáticamente imposibles para N > 5 debido a la capacidad insuficiente del bote, pero los modelos son calificados como fallos por no resolver estos problemas irresolubles. Cuando controlamos estos artefactos experimentales, solicitando funciones generadoras en lugar de listas exhaustivas de movimientos, experimentos preliminares en múltiples modelos indican una alta precisión en instancias de la Torre de Hanói previamente reportadas como fallos completos. Estos hallazgos subrayan la importancia de un diseño experimental cuidadoso al evaluar las capacidades de razonamiento de la IA.
A medida que el ajuste fino (FT, por sus siglas en inglés) se vuelve cada vez más impráctico a gran escala, la evaluación mediante sondeo (probing) está emergiendo como el protocolo preferido para el aprendizaje autosupervisado (SSL, por sus siglas en inglés). Sin embargo, el sondeo lineal estándar (LP, por sus siglas en inglés) no logra reflejar adecuadamente el potencial de los modelos entrenados con Modelado de Imágenes Enmascaradas (MIM, por sus siglas en inglés), debido a la naturaleza distribuida de los tokens de parches. Esto motiva la necesidad de un sondeo atento, una alternativa que utiliza la atención para agregar selectivamente características a nivel de parche. A pesar de su creciente adopción, el sondeo atento sigue siendo poco explorado, y los métodos existentes sufren de una excesiva parametrización y una pobre eficiencia computacional. En este trabajo, revisitamos el sondeo atento desde la perspectiva del equilibrio entre precisión y eficiencia. Realizamos un estudio sistemático de los métodos existentes, analizando sus mecanismos y evaluando su rendimiento. Introducimos el sondeo eficiente (EP, por sus siglas en inglés), un mecanismo de atención cruzada de múltiples consultas que elimina proyecciones redundantes, reduce el número de parámetros entrenables y logra una aceleración de hasta 10 veces en comparación con la atención multi-cabeza convencional. A pesar de su simplicidad, EP supera a LP y a los enfoques previos de sondeo atento en siete puntos de referencia, generaliza bien más allá de MIM hacia diversos paradigmas de preentrenamiento, produce mapas de atención interpretables y logra fuertes ganancias en configuraciones de pocos ejemplos (low-shot) y por capas. El código está disponible en https://github.com/billpsomas/efficient-probing.
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) se ha convertido en una técnica clave para mejorar los modelos de lenguaje de gran escala (LLMs), donde la ingeniería de verificación desempeña un papel central. Sin embargo, las mejores prácticas para el aprendizaje por refuerzo en la ejecución de instrucciones siguen siendo poco exploradas. En este trabajo, abordamos el desafío de la verificación en el aprendizaje por refuerzo para la ejecución de instrucciones y proponemos VerIF, un método de verificación que combina la verificación de código basada en reglas con la verificación basada en LLMs a partir de un modelo de razonamiento de gran escala (por ejemplo, QwQ-32B). Para respaldar este enfoque, construimos un conjunto de datos de alta calidad para la ejecución de instrucciones, VerInstruct, que contiene aproximadamente 22,000 instancias con señales de verificación asociadas. Aplicamos el entrenamiento de aprendizaje por refuerzo con VerIF a dos modelos, logrando mejoras significativas en varios puntos de referencia representativos para la ejecución de instrucciones. Los modelos entrenados alcanzan un rendimiento de vanguardia entre modelos de tamaño comparable y generalizan bien a restricciones no vistas. Además, observamos que sus capacidades generales permanecen inalteradas, lo que sugiere que el aprendizaje por refuerzo con VerIF puede integrarse en recetas existentes de aprendizaje por refuerzo para mejorar el rendimiento general del modelo. Hemos publicado nuestros conjuntos de datos, códigos y modelos para facilitar investigaciones futuras en https://github.com/THU-KEG/VerIF.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y los sistemas de inteligencia artificial (IA) han provocado un cambio de paradigma en el diseño y la optimización de flujos de trabajo complejos de IA. Al integrar múltiples componentes, los sistemas compuestos de IA se han vuelto cada vez más hábiles para realizar tareas sofisticadas. Sin embargo, a medida que estos sistemas aumentan en complejidad, surgen nuevos desafíos en la optimización no solo de los componentes individuales, sino también de sus interacciones. Si bien los métodos tradicionales de optimización, como el ajuste fino supervisado (SFT, por sus siglas en inglés) y el aprendizaje por refuerzo (RL, por sus siglas en inglés), siguen siendo fundamentales, el surgimiento de la retroalimentación en lenguaje natural introduce enfoques prometedores, especialmente para la optimización de sistemas no diferenciables. Este artículo ofrece una revisión sistemática de los avances recientes en la optimización de sistemas compuestos de IA, abarcando tanto técnicas numéricas como basadas en lenguaje. Formalizamos la noción de optimización de sistemas compuestos de IA, clasificamos los métodos existentes según varias dimensiones clave y destacamos los desafíos de investigación abiertos y las direcciones futuras en este campo en rápida evolución. Una lista de los artículos revisados está disponible públicamente en https://github.com/MiuLab/AISysOpt-Survey.
Los modelos de lenguaje de gran escala han transformado el procesamiento del lenguaje natural, aunque el ajuste fino supervisado (SFT, por sus siglas en inglés) sigue siendo computacionalmente intensivo. Este artículo demuestra formalmente que las capacidades adquiridas mediante SFT pueden ser aproximadas por un modelo base de transformadores utilizando técnicas en tiempo de inferencia, específicamente el aprendizaje en contexto (ICL, por sus siglas en inglés), sin alterar los parámetros del modelo, bajo supuestos idealizados que incluyen recursos computacionales ilimitados y acceso al conjunto de datos de ajuste fino. Extendemos estos resultados a escenarios prácticos con longitudes de contexto finitas y acceso parcial a los conjuntos de datos. Para tareas de generación de texto con longitud de salida fija \( l \), conjuntos de datos de tamaño \( O\left( \frac{m}{\varepsilon^2} \log \frac{m}{\delta} \right) \) o, con contexto limitado, \( O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right) \) son suficientes para aproximar el comportamiento ajustado fino en \( m \) contextos dentro de un error \( \varepsilon \), donde \( V \) es el tamaño del vocabulario y \( \delta \) es la probabilidad de fallo. Para clasificación lineal, conjuntos de datos de tamaño \( O\left( \frac{d}{\varepsilon} \right) \) o, con contexto fijo, \( O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right) \) son suficientes, donde \( d \) es la dimensión de entrada. Basados en la completitud de Turing de los transformadores, estos resultados proporcionan una base teórica para el despliegue eficiente de recursos de modelos de lenguaje de gran escala, con técnicas prácticas como la generación aumentada por recuperación que conectan la teoría con aplicaciones del mundo real.
En el comercio electrónico y el marketing digital, la generación de videos de demostración humano-producto de alta fidelidad es crucial para una presentación efectiva de productos. Sin embargo, la mayoría de los marcos existentes no logran preservar las identidades tanto de los humanos como de los productos, o carecen de una comprensión de las relaciones espaciales entre humanos y productos, lo que resulta en representaciones poco realistas e interacciones antinaturales. Para abordar estos desafíos, proponemos un marco basado en Transformadores de Difusión (DiT). Nuestro método preserva simultáneamente las identidades humanas y los detalles específicos de los productos, como logotipos y texturas, mediante la inyección de información de referencia emparejada humano-producto y el uso de un mecanismo adicional de atención cruzada enmascarada. Empleamos una plantilla de malla corporal 3D y cuadros delimitadores de productos para proporcionar una guía de movimiento precisa, permitiendo una alineación intuitiva de los gestos de las manos con la ubicación de los productos. Además, se utiliza una codificación de texto estructurado para incorporar semánticas a nivel de categoría, mejorando la consistencia 3D durante pequeños cambios rotacionales entre fotogramas. Entrenado en un conjunto de datos híbrido con estrategias extensas de aumento de datos, nuestro enfoque supera a las técnicas más avanzadas en el mantenimiento de la integridad de las identidades tanto de humanos como de productos y en la generación de movimientos de demostración realistas. Página del proyecto: https://submit2025-dream.github.io/DreamActor-H1/.
La diversidad de escalas en los datos de nubes de puntos presenta desafíos significativos en el desarrollo de técnicas unificadas de aprendizaje de representaciones para la visión 3D. Actualmente, existen pocos modelos 3D unificados, y ningún método de preentrenamiento existente es igualmente efectivo tanto para nubes de puntos a nivel de objetos como de escenas. En este artículo, presentamos UniPre3D, el primer método de preentrenamiento unificado que puede aplicarse de manera fluida a nubes de puntos de cualquier escala y a modelos 3D de cualquier arquitectura. Nuestro enfoque predice primitivas gaussianas como tarea de preentrenamiento y emplea el trazado de splines gaussianos diferenciables para renderizar imágenes, permitiendo una supervisión precisa a nivel de píxeles y una optimización de extremo a extremo. Para regular aún más la complejidad de la tarea de preentrenamiento y dirigir el enfoque del modelo hacia estructuras geométricas, integramos características 2D de modelos de imágenes preentrenados para incorporar conocimientos bien establecidos sobre texturas. Validamos la efectividad universal de nuestro método propuesto a través de experimentos exhaustivos en una variedad de tareas a nivel de objetos y escenas, utilizando diversos modelos de nubes de puntos como bases. El código está disponible en https://github.com/wangzy22/UniPre3D.
A medida que los modelos de lenguaje de gran escala (LLMs) han avanzado hacia comunicaciones más humanas y las interacciones humano-IA se han vuelto prevalentes, el prompting ha surgido como un componente decisivo. Sin embargo, existe un consenso conceptual limitado sobre qué exactamente cuantifica los prompts en lenguaje natural. Intentamos abordar esta pregunta realizando un meta-análisis que examina más de 150 artículos relacionados con prompting de conferencias líderes en PLN e IA desde 2022 hasta 2025, así como blogs. Proponemos un marco centrado en propiedades y en el ser humano para evaluar la calidad de los prompts, abarcando 21 propiedades categorizadas en seis dimensiones. Luego, examinamos cómo los estudios existentes evalúan su impacto en los LLMs, revelando un apoyo desequilibrado entre modelos y tareas, así como brechas sustanciales de investigación. Además, analizamos correlaciones entre propiedades en prompts de lenguaje natural de alta calidad, derivando recomendaciones para el prompting. Posteriormente, exploramos empíricamente mejoras de prompts con múltiples propiedades en tareas de razonamiento, observando que las mejoras de una sola propiedad suelen tener el mayor impacto. Finalmente, descubrimos que el ajuste por instrucción en prompts mejorados con propiedades puede resultar en modelos de razonamiento más efectivos. Nuestros hallazgos establecen una base para la evaluación y optimización de prompts centrada en propiedades, cerrando las brechas entre la comunicación humano-IA y abriendo nuevas direcciones de investigación en prompting.
Un objetivo central de la interpretabilidad mecanicista ha sido identificar las unidades de análisis adecuadas en los modelos de lenguaje de gran escala (LLMs) que explican causalmente sus salidas. Si bien los primeros trabajos se centraron en neuronas individuales, la evidencia de que las neuronas a menudo codifican múltiples conceptos ha motivado un cambio hacia el análisis de direcciones en el espacio de activación. Una pregunta clave es cómo encontrar direcciones que capturen características interpretables de manera no supervisada. Los métodos actuales se basan en el aprendizaje de diccionarios con autoencoders dispersos (SAEs), comúnmente entrenados sobre activaciones del flujo residual para aprender direcciones desde cero. Sin embargo, los SAEs a menudo tienen dificultades en evaluaciones causales y carecen de interpretabilidad intrínseca, ya que su aprendizaje no está explícitamente vinculado a los cálculos del modelo. Aquí, abordamos estas limitaciones descomponiendo directamente las activaciones de las MLP mediante factorización matricial semi-no negativa (SNMF), de modo que las características aprendidas sean (a) combinaciones lineales dispersas de neuronas coactivadas, y (b) mapeadas a sus entradas activadoras, lo que las hace directamente interpretables. Los experimentos en Llama 3.1, Gemma 2 y GPT-2 muestran que las características derivadas de SNMF superan a los SAEs y a una línea base supervisada fuerte (diferencia de medias) en la dirección causal, al tiempo que se alinean con conceptos interpretables para humanos. Un análisis adicional revela que combinaciones específicas de neuronas se reutilizan en características semánticamente relacionadas, exponiendo una estructura jerárquica en el espacio de activación de las MLP. En conjunto, estos resultados posicionan a SNMF como una herramienta simple y efectiva para identificar características interpretables y diseccionar representaciones de conceptos en LLMs.
El entrenamiento de modelos de lenguaje de gran escala generalmente se realiza mediante métodos de optimización en clústeres que contienen decenas de miles de aceleradores, comunicándose a través de una interconexión de alto ancho de banda. Escalar estos clústeres es costoso y puede volverse poco práctico, imponiendo límites en el tamaño de los modelos que se pueden entrenar. Varios estudios recientes han propuesto métodos de entrenamiento que son menos intensivos en comunicación, evitando la necesidad de un clúster de computación altamente conectado. Estos métodos de entrenamiento de baja comunicación, considerados de vanguardia, aún emplean un paso de sincronización para los parámetros del modelo, lo cual, cuando se realiza en todas las réplicas del modelo, puede volverse costoso en una red de bajo ancho de banda. En este trabajo, proponemos un nuevo método de optimización, NoLoCo, que no sincroniza explícitamente todos los parámetros del modelo durante el entrenamiento y, como resultado, no requiere ninguna comunicación colectiva. NoLoCo sincroniza implícitamente los pesos del modelo mediante una variante novedosa del optimizador de momento de Nesterov, promediando parcialmente los pesos del modelo con otro seleccionado aleatoriamente. Proporcionamos tanto un análisis teórico de convergencia para nuestro optimizador propuesto como resultados empíricos del entrenamiento de modelos de lenguaje. Evaluamos NoLoCo en una amplia gama de cantidades de aceleradores y tamaños de modelos, entre 125M y 6.8B de parámetros. Nuestro método requiere significativamente menos sobrecarga de comunicación que el entrenamiento en paralelo de datos completamente fragmentados o incluso el método de entrenamiento de baja comunicación ampliamente utilizado, DiLoCo. Se estima que el paso de sincronización en sí es un orden de magnitud más rápido que el all-reduce utilizado en DiLoCo para el entrenamiento con unos pocos cientos de aceleradores a través de internet. Además, no tenemos ninguna comunicación global de bloqueo que reduzca el tiempo de inactividad de los aceleradores. En comparación con DiLoCo, también observamos una tasa de convergencia hasta un 4% más rápida en una amplia gama de tamaños de modelos y cantidades de aceleradores.
La creciente adopción de la inteligencia artificial en las telecomunicaciones ha despertado interés en la capacidad de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para abordar tareas específicas del dominio y de alta intensidad matemática. Aunque los avances recientes han mejorado el rendimiento de los LLMs en el razonamiento matemático general, su efectividad dentro de dominios especializados, como el procesamiento de señales, la optimización de redes y el análisis de rendimiento, sigue siendo en gran medida inexplorada. Para abordar esta brecha, presentamos TeleMath, el primer conjunto de datos de referencia diseñado específicamente para evaluar el rendimiento de los LLMs en la resolución de problemas matemáticos con soluciones numéricas en el ámbito de las telecomunicaciones. Compuesto por 500 pares de preguntas y respuestas (QnA, por sus siglas en inglés), TeleMath abarca un amplio espectro de temas en el campo de las telecomunicaciones. Este artículo describe la pipeline propuesta para la generación de QnAs, comenzando con una selección inicial de problemas elaborados por expertos en la materia. La evaluación de una amplia gama de LLMs de código abierto revela que el mejor rendimiento en TeleMath lo logran modelos recientes diseñados explícitamente para el razonamiento matemático o lógico. En contraste, los modelos de propósito general, incluso aquellos con un gran número de parámetros, a menudo enfrentan dificultades con estos desafíos. Hemos liberado el conjunto de datos y el código de evaluación para facilitar la reproducibilidad de los resultados y apoyar investigaciones futuras.
La guía sin clasificador (Classifier-Free Guidance, CFG) se ha convertido en un componente esencial de los modelos de difusión modernos para mejorar tanto la calidad de la generación como la alineación con las condiciones de entrada. Sin embargo, CFG requiere procedimientos de entrenamiento específicos y está limitado a la generación condicional. Para abordar estas limitaciones, proponemos la Guía de Perturbación de Tokens (Token Perturbation Guidance, TPG), un método novedoso que aplica matrices de perturbación directamente a las representaciones intermedias de tokens dentro de la red de difusión. TPG emplea una operación de reordenamiento que preserva la norma para proporcionar señales de guía efectivas y estables que mejoran la calidad de la generación sin cambios arquitectónicos. Como resultado, TPG no requiere entrenamiento y es agnóstico a las condiciones de entrada, lo que lo hace aplicable tanto a la generación condicional como a la incondicional. Además, analizamos el término de guía proporcionado por TPG y demostramos que su efecto en el muestreo se asemeja más a CFG en comparación con las técnicas de guía existentes que no requieren entrenamiento. Experimentos extensos en SDXL y Stable Diffusion 2.1 muestran que TPG logra una mejora de casi 2 veces en el FID para la generación incondicional en comparación con la línea base de SDXL, al tiempo que coincide estrechamente con CFG en la alineación con indicaciones. Estos resultados establecen a TPG como un método de guía general y agnóstico a las condiciones que aporta beneficios similares a CFG a una clase más amplia de modelos de difusión. El código está disponible en https://github.com/TaatiTeam/Token-Perturbation-Guidance.
El desaprendizaje en Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) tiene como objetivo eliminar o suprimir conocimientos no deseados dentro del modelo, ofreciendo promesas para controlar información dañina o privada y prevenir su mal uso. Sin embargo, estudios recientes destacan su eficacia limitada en escenarios del mundo real, lo que dificulta su adopción práctica. En este estudio, identificamos un problema subyacente que afecta a muchos fallos en tareas posteriores: la efectividad de los métodos existentes de desaprendizaje depende en gran medida de la forma de las muestras de entrenamiento y con frecuencia no logra generalizarse a expresiones alternativas del mismo conocimiento. Caracterizamos formalmente este problema como Sesgo Dependiente de la Forma e investigamos sistemáticamente sus patrones de manifestación específicos en diversas tareas posteriores. Para cuantificar su prevalencia y apoyar investigaciones futuras, presentamos ORT, un nuevo punto de referencia diseñado para evaluar la robustez de los métodos de desaprendizaje frente a variaciones en la expresión del conocimiento. Los resultados revelan que el Sesgo Dependiente de la Forma es tanto generalizado como severo entre las técnicas actuales. Argumentamos que el desaprendizaje en LLM debería ser independiente de la forma para abordar las innumerables expresiones de tareas posteriores que se encuentran en escenarios críticos de seguridad del mundo real. Con este objetivo, presentamos Redirección de Conceptos de Rango Uno (ROCR, por sus siglas en inglés), un método novedoso que no requiere entrenamiento, como una vía de solución prometedora. ROCR realiza el desaprendizaje al enfocarse en los invariantes de las tareas posteriores, específicamente en los conceptos peligrosos activados. Es capaz de modificar los parámetros del modelo en cuestión de segundos para redirigir la percepción del modelo sobre un concepto específico de desaprendizaje hacia otro concepto inofensivo. Experimentos extensos demuestran que ROCR mejora significativamente la efectividad del desaprendizaje en comparación con los métodos tradicionales, al tiempo que genera resultados altamente naturales.
La rápida evolución de los campos científicos introduce desafíos en la organización y recuperación de la literatura científica. Si bien las taxonomías curadas por expertos han abordado tradicionalmente esta necesidad, el proceso es lento y costoso. Además, los métodos recientes de construcción automática de taxonomías (1) dependen en exceso de un corpus específico, sacrificando la generalización, o (2) se apoyan demasiado en el conocimiento general de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) contenidos en sus conjuntos de datos de preentrenamiento, a menudo pasando por alto la naturaleza dinámica de los dominios científicos en evolución. Asimismo, estos enfoques no tienen en cuenta la naturaleza multifacética de la literatura científica, donde un solo artículo de investigación puede contribuir a múltiples dimensiones (por ejemplo, metodología, nuevas tareas, métricas de evaluación, puntos de referencia). Para abordar estas brechas, proponemos TaxoAdapt, un marco que adapta dinámicamente una taxonomía generada por un LLM a un corpus dado a través de múltiples dimensiones. TaxoAdapt realiza una clasificación jerárquica iterativa, expandiendo tanto la amplitud como la profundidad de la taxonomía en función de la distribución temática del corpus. Demostramos su rendimiento de vanguardia en un conjunto diverso de conferencias de informática a lo largo de los años para mostrar su capacidad para estructurar y capturar la evolución de los campos científicos. Como método multidimensional, TaxoAdapt genera taxonomías que preservan un 26,51% más la granularidad y son un 50,41% más coherentes que las líneas base más competitivas evaluadas por LLMs.
Las afirmaciones realizadas por individuos o entidades suelen ser matizadas y no pueden etiquetarse claramente como completamente "verdaderas" o "falsas", como ocurre frecuentemente con las afirmaciones científicas y políticas. Sin embargo, una afirmación (por ejemplo, "la vacuna A es mejor que la vacuna B") puede desglosarse en sus aspectos integrales y subaspectos (por ejemplo, eficacia, seguridad, distribución), que son más fáciles de validar individualmente. Esto permite una respuesta más completa y estructurada que proporciona una perspectiva equilibrada sobre un problema determinado, al mismo tiempo que permite al lector priorizar ángulos específicos de interés dentro de la afirmación (por ejemplo, la seguridad hacia los niños). Por lo tanto, proponemos ClaimSpect, un marco basado en generación aumentada por recuperación para construir automáticamente una jerarquía de aspectos que se consideran típicamente al abordar una afirmación y enriquecerlos con perspectivas específicas del corpus. Esta estructura particiona jerárquicamente un corpus de entrada para recuperar segmentos relevantes, que ayudan a descubrir nuevos subaspectos. Además, estos segmentos permiten descubrir diversas perspectivas hacia un aspecto de la afirmación (por ejemplo, apoyo, neutralidad u oposición) y su prevalencia respectiva (por ejemplo, "¿cuántos artículos biomédicos creen que la vacuna A es más transportable que la B?"). Aplicamos ClaimSpect a una amplia variedad de afirmaciones científicas y políticas del mundo real presentes en nuestro conjunto de datos construido, demostrando su robustez y precisión al deconstruir una afirmación matizada y representar perspectivas dentro de un corpus. A través de estudios de casos reales y evaluación humana, validamos su efectividad frente a múltiples líneas base.
La optimización de la inferencia para modelos de lenguaje de gran contexto (LLM, por sus siglas en inglés) es cada vez más importante debido a la complejidad cuadrática en cómputo y lineal en memoria de los Transformers. Los métodos de aproximación existentes, como la eliminación de la caché clave-valor (KV), la atención dispersa y la compresión de prompts, suelen basarse en predicciones aproximadas de la importancia de los tokens o pares KV. Proponemos un marco novedoso para la inferencia aproximada de LLM que aprovecha modelos de borrador pequeños para predecir con mayor precisión la importancia de los tokens y los pares KV. Específicamente, presentamos dos instancias de nuestro marco propuesto: (i) SpecKV, que utiliza una salida de borrador para evaluar con precisión la importancia de cada par KV y así mejorar la eliminación de la caché KV, y (ii) SpecPC, que emplea las activaciones de atención del modelo de borrador para identificar y descartar tokens de prompt no importantes. Hasta donde sabemos, este es el primer trabajo que utiliza modelos de borrador para acelerar la inferencia aproximada de LLM, ampliando su utilidad más allá del decodificado especulativo tradicional sin pérdidas. Fundamentamos nuestros métodos con análisis teóricos y empíricos, y demostramos una fuerte correlación entre los patrones de atención de los modelos de borrador y los modelos objetivo. Experimentos exhaustivos en benchmarks de contexto largo muestran que nuestros métodos logran consistentemente una mayor precisión que las líneas base existentes, manteniendo las mismas mejoras en el uso de memoria, latencia y rendimiento. Nuestro código está disponible en https://github.com/furiosa-ai/draft-based-approx-llm.
Los modelos fundacionales han revolucionado campos como el procesamiento del lenguaje natural y la visión por computadora al permitir el aprendizaje de propósito general en diversas tareas y conjuntos de datos. Sin embargo, la construcción de modelos análogos para la movilidad humana sigue siendo un desafío debido a la naturaleza sensible a la privacidad de los datos de movilidad y los consiguientes silos de datos entre instituciones. Para cerrar esta brecha, proponemos MoveGCL, un marco escalable y que preserva la privacidad para entrenar modelos fundacionales de movilidad mediante el aprendizaje continuo generativo. Sin compartir datos en bruto, MoveGCL permite la evolución descentralizada y progresiva del modelo mediante la reproducción de trayectorias sintéticas generadas a partir de un modelo maestro congelado, y refuerza la retención de conocimiento a través de una estrategia de destilación personalizada que mitiga el olvido catastrófico. Para abordar la heterogeneidad de los patrones de movilidad, MoveGCL incorpora un Transformer de Mezcla de Expertos con un mecanismo de enrutamiento de expertos consciente de la movilidad, y emplea una estrategia de adaptación progresiva por capas para estabilizar las actualizaciones continuas. Los experimentos en seis conjuntos de datos urbanos del mundo real demuestran que MoveGCL logra un rendimiento comparable al entrenamiento conjunto y supera significativamente los baselines de aprendizaje federado, al mismo tiempo que ofrece una fuerte protección de la privacidad. MoveGCL marca un paso crucial hacia el desarrollo de modelos fundacionales para la movilidad, ofreciendo un plan práctico para el desarrollo de modelos abiertos, escalables y que preservan la privacidad en la era de los modelos fundacionales.
La construcción de un mundo 3D simulado físicamente realista y escalado con precisión es crucial para el entrenamiento y evaluación de tareas de inteligencia corporeizada. La diversidad, realismo, accesibilidad de bajo costo y asequibilidad de los activos de datos 3D son fundamentales para lograr generalización y escalabilidad en la IA corporeizada. Sin embargo, la mayoría de las tareas actuales de inteligencia corporeizada aún dependen en gran medida de activos tradicionales de gráficos 3D creados y anotados manualmente, los cuales sufren de altos costos de producción y un realismo limitado. Estas limitaciones dificultan significativamente la escalabilidad de los enfoques basados en datos. Presentamos EmbodiedGen, una plataforma fundamental para la generación interactiva de mundos 3D. Permite la generación escalable de activos 3D de alta calidad, controlables y fotorrealistas con propiedades físicas precisas y escala del mundo real en el Formato de Descripción de Robótica Unificada (URDF) a bajo costo. Estos activos pueden importarse directamente en varios motores de simulación física para un control físico detallado, apoyando tareas posteriores en entrenamiento y evaluación. EmbodiedGen es un kit de herramientas fácil de usar y con todas las funciones, compuesto por seis módulos clave: Imagen-a-3D, Texto-a-3D, Generación de Texturas, Generación de Objetos Articulados, Generación de Escenas y Generación de Diseño. EmbodiedGen genera mundos 3D diversos e interactivos compuestos por activos 3D generativos, aprovechando la IA generativa para abordar los desafíos de generalización y evaluación en relación con las necesidades de investigación en inteligencia corporeizada. El código está disponible en https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
La evaluación fiel de las capacidades de los modelos de lenguaje es crucial para obtener insights accionables que puedan informar el desarrollo de los modelos. Sin embargo, las evaluaciones causales rigurosas en este dominio enfrentan desafíos metodológicos significativos, incluyendo efectos de confusión complejos y costos computacionales prohibitivos asociados con el reentrenamiento extensivo. Para abordar estos desafíos, proponemos un marco de aprendizaje de representaciones causales en el cual el rendimiento observado en los benchmarks se modela como una transformación lineal de unos pocos factores de capacidad latentes. Es crucial destacar que estos factores latentes se identifican como causalmente interrelacionados después de controlar adecuadamente el modelo base como un factor de confusión común. Al aplicar este enfoque a un conjunto de datos exhaustivo que abarca más de 1500 modelos evaluados en seis benchmarks del Open LLM Leaderboard, identificamos una estructura causal lineal concisa de tres nodos que explica de manera confiable las variaciones de rendimiento observadas. La interpretación adicional de esta estructura causal proporciona insights científicos sustanciales más allá de las simples clasificaciones numéricas: específicamente, revelamos una dirección causal clara que comienza con las capacidades generales de resolución de problemas, avanza a través de la competencia en el seguimiento de instrucciones y culmina en la habilidad de razonamiento matemático. Nuestros resultados subrayan el papel esencial de controlar cuidadosamente las variaciones del modelo base durante la evaluación, un paso crítico para descubrir con precisión las relaciones causales subyacentes entre las capacidades latentes de los modelos.
Los títulos de las figuras son cruciales para ayudar a los lectores a comprender y recordar el mensaje clave de una figura. Se han desarrollado muchos modelos para generar estos títulos, lo que facilita a los autores la composición de títulos de mayor calidad. Sin embargo, los autores casi siempre necesitan revisar los títulos generados por IA de manera genérica para que coincidan con su estilo de escritura y el estilo del dominio, lo que resalta la necesidad de personalización. A pesar de los avances en la personalización de modelos de lenguaje (LaMP), estas tecnologías suelen centrarse en entornos de solo texto y rara vez abordan escenarios donde tanto las entradas como los perfiles son multimodales. Este artículo presenta LaMP-Cap, un conjunto de datos para la generación personalizada de títulos de figuras con perfiles multimodales de figuras. Para cada figura objetivo, LaMP-Cap proporciona no solo las entradas necesarias, como las imágenes de la figura, sino también hasta otras tres figuras del mismo documento, cada una con su imagen, título y párrafos que mencionan la figura, como un perfil para caracterizar el contexto. Los experimentos con cuatro LLM muestran que el uso de información del perfil ayuda consistentemente a generar títulos más cercanos a los escritos originalmente por el autor. Los estudios de ablación revelan que las imágenes en el perfil son más útiles que los párrafos que mencionan la figura, destacando la ventaja de utilizar perfiles multimodales sobre los que solo incluyen texto.
A medida que las técnicas de ataques automatizados avanzan rápidamente, los CAPTCHAs siguen siendo un mecanismo de defensa crítico contra bots maliciosos. Sin embargo, los esquemas de CAPTCHA existentes abarcan una amplia gama de modalidades, desde texto distorsionado estático e imágenes ofuscadas hasta clics interactivos, rompecabezas deslizantes y preguntas basadas en lógica. No obstante, la comunidad aún carece de un punto de referencia unificado, a gran escala y multimodal para evaluar rigurosamente su robustez de seguridad. Para abordar esta brecha, presentamos MCA-Bench, una suite de evaluación integral y reproducible que integra tipos heterogéneos de CAPTCHA en un único protocolo de evaluación. Aprovechando un modelo compartido de visión y lenguaje, ajustamos agentes especializados en descifrado para cada categoría de CAPTCHA, permitiendo evaluaciones consistentes y multimodales. Experimentos extensos revelan que MCA-Bench mapea efectivamente el espectro de vulnerabilidad de los diseños modernos de CAPTCHA bajo diversos escenarios de ataque y, crucialmente, ofrece el primer análisis cuantitativo de cómo la complejidad del desafío, la profundidad de la interacción y la capacidad de resolución del modelo se interrelacionan. Basándonos en estos hallazgos, proponemos tres principios de diseño accionables e identificamos desafíos abiertos clave, sentando las bases para el fortalecimiento sistemático de CAPTCHAs, la evaluación justa y una colaboración más amplia en la comunidad. Los conjuntos de datos y el código están disponibles en línea.
La reconstrucción en tiempo real de escenas 3D dinámicas a partir de flujos de video no calibrados es crucial para numerosas aplicaciones del mundo real. Sin embargo, los métodos existentes tienen dificultades para abordar conjuntamente tres desafíos clave: 1) procesar entradas no calibradas en tiempo real, 2) modelar con precisión la evolución dinámica de la escena, y 3) mantener la estabilidad a largo plazo y la eficiencia computacional. Con este fin, presentamos StreamSplat, el primer marco completamente de avance que transforma flujos de video no calibrados de longitud arbitraria en representaciones dinámicas de *Gaussian Splatting* 3D (3DGS) de manera en línea, capaz de recuperar la dinámica de la escena a partir de observaciones temporales locales. Proponemos dos innovaciones técnicas clave: un mecanismo de muestreo probabilístico en el codificador estático para la predicción de posiciones 3DGS, y un campo de deformación bidireccional en el decodificador dinámico que permite un modelado dinámico robusto y eficiente. Experimentos exhaustivos en benchmarks estáticos y dinámicos demuestran que StreamSplat supera consistentemente trabajos previos tanto en calidad de reconstrucción como en modelado de escenas dinámicas, mientras que, de manera única, soporta la reconstrucción en línea de flujos de video de longitud arbitraria. El código y los modelos están disponibles en https://github.com/nickwzk/StreamSplat.