Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien el paradigma del "razonamiento profundo" ha impulsado avances significativos en dominios verificables como las matemáticas, su aplicación a la generación creativa y de final abierto sigue siendo un desafío crítico. Los dos métodos dominantes para inculcar razonamiento —el aprendizaje por refuerzo (RL) y la destilación de instrucciones— tropiezan en este ámbito; el RL lucha con la ausencia de señales de recompensa claras y modelos de recompensa de alta calidad, mientras que la destilación es prohibitivamente costosa y está limitada por las capacidades del modelo maestro. Para superar estas limitaciones, presentamos REverse-Engineered Reasoning (REER), un nuevo paradigma que cambia fundamentalmente el enfoque. En lugar de construir un proceso de razonamiento "hacia adelante" mediante prueba y error o imitación, REER funciona "hacia atrás" a partir de soluciones conocidas y buenas para descubrir computacionalmente el proceso latente de razonamiento profundo paso a paso que podría haberlas producido. Utilizando este enfoque escalable y libre de gradientes, hemos curado y publicado DeepWriting-20K, un conjunto de datos a gran escala de 20,000 trayectorias de razonamiento profundo para tareas de final abierto. Nuestro modelo, DeepWriter-8B, entrenado con estos datos, no solo supera a sólidos modelos de código abierto, sino que también logra un rendimiento competitivo y, en ocasiones, superior a modelos propietarios líderes como GPT-4o y Claude 3.5.
El paradigma de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha evolucionado cada vez más hacia aplicaciones agentivas, donde las capacidades de navegación web son fundamentales para recuperar información de diversas fuentes en línea. Sin embargo, los agentes web de código abierto existentes demuestran habilidades limitadas para la búsqueda de información en tareas complejas o carecen de implementaciones transparentes. En este trabajo, identificamos que el principal desafío radica en la escasez de datos desafiantes para la búsqueda de información. Para abordar esta limitación, presentamos WebExplorer: un enfoque sistemático de generación de datos que utiliza exploración basada en modelos y evolución iterativa de consultas de largo a corto. Este método crea pares de consulta-respuesta desafiantes que requieren razonamiento de múltiples pasos y navegación web compleja. Al aprovechar nuestro conjunto de datos de alta calidad, desarrollamos con éxito el agente web avanzado WebExplorer-8B mediante ajuste fino supervisado seguido de aprendizaje por refuerzo. Nuestro modelo admite una longitud de contexto de 128K y hasta 100 turnos de llamadas a herramientas, lo que permite la resolución de problemas de largo alcance. En diversos puntos de referencia de búsqueda de información, WebExplorer-8B logra un rendimiento de vanguardia en su escala. Notablemente, como un modelo de 8B, WebExplorer-8B es capaz de buscar efectivamente en un promedio de 16 turnos después del entrenamiento por refuerzo, alcanzando una mayor precisión que WebSailor-72B en BrowseComp-en/zh y obteniendo el mejor rendimiento entre modelos de hasta 100B parámetros en WebWalkerQA y FRAMES. Más allá de estas tareas de búsqueda de información, nuestro modelo también logra una fuerte generalización en el punto de referencia HLE, a pesar de estar entrenado únicamente en datos de preguntas y respuestas intensivas en conocimiento. Estos resultados destacan nuestro enfoque como una vía práctica hacia agentes web de largo alcance.
Proponemos TraceRL, un marco de aprendizaje por refuerzo consciente de trayectorias para modelos de lenguaje basados en difusión (DLMs) que incorpora trayectorias de inferencia preferidas en el post-entrenamiento, siendo aplicable a diferentes arquitecturas. Equipado con un modelo de valor basado en difusión que mejora la estabilidad del entrenamiento, demostramos un mejor rendimiento en tareas complejas de razonamiento matemático y codificación. Además, también puede aplicarse para adaptar modelos específicos de bloques a bloques más grandes, lo que mejora la flexibilidad en el muestreo. Utilizando TraceRL, derivamos una serie de modelos de lenguaje basados en difusión de vanguardia, denominados TraDo. Aunque más pequeños que los modelos AR de escala 7B, TraDo-4B-Instruct supera consistentemente a estos en tareas complejas de razonamiento matemático. TraDo-8B-Instruct logra mejoras relativas en precisión del 6.1% sobre Qwen2.5-7B-Instruct y del 51.3% sobre Llama3.1-8B-Instruct en benchmarks de razonamiento matemático. Mediante aprendizaje curricular, también derivamos el primer DLM de cadena de pensamiento larga (long-CoT), superando a Qwen2.5-7B-Instruct en MATH500 con una ganancia relativa en precisión del 18.1%. Para facilitar la investigación reproducible y aplicaciones prácticas, publicamos un marco de código abierto integral para construir, entrenar y desplegar modelos de lenguaje grandes (LLMs) basados en difusión en diversas arquitecturas. El marco integra técnicas aceleradas de caché KV y motores de inferencia tanto para inferencia como para aprendizaje por refuerzo, e incluye implementaciones de varios métodos de ajuste fino supervisado y RL para tareas de matemáticas, codificación y generales. Código y Modelos: https://github.com/Gen-Verse/dLLM-RL
El advenimiento de modelos de visión de base a gran escala, preentrenados en imágenes naturales diversas, ha marcado un cambio de paradigma en la visión por computadora. Sin embargo, cómo se transfiere la eficacia de los modelos de visión de base de vanguardia a dominios especializados, como la imagen médica, sigue siendo una pregunta abierta. Este informe investiga si DINOv3, un transformador de visión (ViT) de última generación con aprendizaje autosupervisado que destaca por su capacidad en tareas de predicción densa, puede servir directamente como un codificador potente y unificado para tareas de visión médica sin necesidad de preentrenamiento específico del dominio. Para responder a esto, evaluamos DINOv3 en tareas comunes de visión médica, incluyendo clasificación y segmentación 2D/3D en una amplia gama de modalidades de imágenes médicas. Analizamos sistemáticamente su escalabilidad variando los tamaños del modelo y las resoluciones de las imágenes de entrada. Nuestros hallazgos revelan que DINOv3 muestra un rendimiento impresionante y establece una nueva línea de base formidable. Notablemente, incluso puede superar a modelos de base específicos para medicina, como BiomedCLIP y CT-Net, en varias tareas, a pesar de haber sido entrenado únicamente en imágenes naturales. Sin embargo, identificamos limitaciones claras: las características del modelo se degradan en escenarios que requieren una especialización profunda del dominio, como en imágenes patológicas de láminas completas (WSIs), microscopía electrónica (EM) y tomografía por emisión de positrones (PET). Además, observamos que DINOv3 no sigue consistentemente la ley de escalamiento en el dominio médico; el rendimiento no aumenta de manera confiable con modelos más grandes o resoluciones de características más finas, mostrando comportamientos de escalamiento diversos entre tareas. En última instancia, nuestro trabajo establece a DINOv3 como una línea de base sólida, cuyas potentes características visuales pueden servir como un antecedente robusto para múltiples tareas médicas complejas. Esto abre direcciones futuras prometedoras, como aprovechar sus características para reforzar la consistencia multivista en la reconstrucción 3D.
El razonamiento visual, un pilar fundamental de la inteligencia humana, abarca procesos perceptivos y lógicos complejos esenciales para resolver diversos problemas visuales. Si bien los avances en visión por computadora han producido modelos potentes para diversas tareas perceptivas, aprovechar estos modelos para el razonamiento visual general sigue siendo un desafío. Trabajos previos demuestran que aumentar los LLM con modelos de visión mediante ajuste fino supervisado mejora el rendimiento, pero enfrenta limitaciones clave como la generación costosa de datos, la dependencia de un filtrado cuidadoso de datos y una mala generalización. Para abordar estos problemas, proponemos ReVPT para mejorar las habilidades de los LLM multimodales para razonar y utilizar herramientas visuales mediante aprendizaje por refuerzo. Introducimos un novedoso algoritmo de RL basado en GRPO, diseñado para entrenar modelos a razonar con un conjunto de cuatro herramientas visuales. A través de extensos experimentos, demostramos que nuestro método alcanza un rendimiento de vanguardia en varios benchmarks con fuerte componente perceptiva, incluyendo SAT, CV-Bench, BLINK y MMStar, superando significativamente las líneas base de ajuste fino supervisado y RL basado en texto. Notablemente, nuestros ReVPT-3B y ReVPT-7B superan a los modelos instruct en un 9.03% y 9.44% en CV-Bench. Finalmente, aportamos a la comunidad nuevas perspectivas sobre el uso de herramientas visuales basadas en RL a través de extensas ablaciones. Nuestro código está disponible en https://github.com/ls-kelvin/REVPT.
Los sistemas de investigación profunda, IA agentiva que resuelve tareas complejas y de múltiples pasos mediante la coordinación de razonamiento, búsqueda en la web abierta y archivos del usuario, y el uso de herramientas, están avanzando hacia implementaciones jerárquicas con un Planificador, Coordinador y Ejecutores. En la práctica, entrenar pilas completas de extremo a extremo sigue siendo poco práctico, por lo que la mayoría del trabajo entrena un único planificador conectado a herramientas centrales como búsqueda, navegación y código. Mientras que el Fine-Tuning Supervisado (SFT) garantiza la fidelidad del protocolo, sufre de sesgos de imitación y exposición y subutiliza la retroalimentación del entorno. Los métodos de alineación de preferencias, como DPO, dependen de esquemas y proxies, son fuera de política y débiles para la asignación de crédito a largo plazo y los equilibrios multiobjetivo. Una limitación adicional de SFT y DPO es su dependencia de puntos de decisión y subhabilidades definidos por humanos a través del diseño de esquemas y comparaciones etiquetadas. El aprendizaje por refuerzo se alinea con la investigación de interacción de herramientas en bucle cerrado al optimizar políticas a nivel de trayectoria, permitiendo exploración, comportamientos de recuperación y asignación de crédito fundamentada, y reduce la dependencia de tales conocimientos previos humanos y sesgos de evaluadores. Este estudio es, hasta donde sabemos, el primero dedicado a los fundamentos de aprendizaje por refuerzo (RL) en sistemas de investigación profunda. Sistematiza el trabajo posterior a DeepSeek-R1 en tres ejes: (i) síntesis y curación de datos; (ii) métodos de RL para investigación agentiva que cubren estabilidad, eficiencia de muestreo, manejo de contextos largos, diseño de recompensas y crédito, optimización multiobjetivo e integración multimodal; y (iii) sistemas y marcos de entrenamiento de RL agentivo. También cubrimos arquitectura y coordinación de agentes, así como evaluación y benchmarks, incluyendo tareas recientes de QA, VQA, síntesis de largo formato y tareas de interacción con herramientas basadas en dominios. Destilamos patrones recurrentes, identificamos cuellos de botella en la infraestructura y ofrecemos orientación práctica para entrenar agentes de investigación profunda robustos y transparentes con RL.
El aprendizaje multitarea (MTL, por sus siglas en inglés) a menudo se logra fusionando conjuntos de datos antes del ajuste fino, pero la creciente disponibilidad de modelos ajustados ha dado lugar a nuevos enfoques, como la fusión de modelos mediante aritmética de tareas. Un desafío importante en este contexto es la interferencia entre tareas, que empeora a medida que aumenta el número de tareas. Proponemos un método que fusiona modelos entrenados en diferentes tareas en un solo modelo, manteniendo un rendimiento sólido en todas las tareas. Nuestro enfoque aprovecha la divergencia de Jensen-Shannon para guiar el proceso de fusión sin requerir datos etiquetados adicionales, y equilibra automáticamente la importancia de las tareas. A diferencia de los métodos existentes, nuestro enfoque se mantiene robusto a medida que aumenta el número de tareas y supera consistentemente trabajos previos.
Presentamos Paper2Agent, un marco automatizado que convierte artículos de investigación en agentes de IA. Paper2Agent transforma los resultados de investigación de artefactos pasivos en sistemas activos que pueden acelerar su uso, adopción y descubrimiento posteriores. Los artículos de investigación convencionales requieren que los lectores inviertan un esfuerzo considerable para comprender y adaptar el código, los datos y los métodos de un artículo a su propio trabajo, lo que crea barreras para su difusión y reutilización. Paper2Agent aborda este desafío al convertir automáticamente un artículo en un agente de IA que actúa como un asistente de investigación experto. Analiza sistemáticamente el artículo y el código asociado utilizando múltiples agentes para construir un servidor de Protocolo de Contexto de Modelo (MCP, por sus siglas en inglés), luego genera y ejecuta pruebas de manera iterativa para refinar y robustecer el MCP resultante. Estos MCP de artículos pueden conectarse de manera flexible a un agente de chat (por ejemplo, Claude Code) para llevar a cabo consultas científicas complejas a través de lenguaje natural, mientras invocan herramientas y flujos de trabajo del artículo original. Demostramos la eficacia de Paper2Agent en la creación de agentes de artículos confiables y capaces a través de estudios de casos detallados. Paper2Agent creó un agente que utiliza AlphaGenome para interpretar variantes genómicas y agentes basados en ScanPy y TISSUE para realizar análisis de transcriptómica unicelular y espacial. Validamos que estos agentes de artículos pueden reproducir los resultados del artículo original y ejecutar correctamente consultas novedosas de los usuarios. Al convertir artículos estáticos en agentes de IA dinámicos e interactivos, Paper2Agent introduce un nuevo paradigma para la difusión del conocimiento y sienta las bases para un ecosistema colaborativo de co-científicos de IA.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado un éxito notable en diversas tareas visuales, aunque su rendimiento se degrada en entornos visuales complejos. Mientras que los enfoques de mejora existentes requieren entrenamiento adicional, dependen de herramientas de segmentación externas o operan a niveles de granularidad gruesa, pasan por alto la capacidad innata de los VLMs. Para cerrar esta brecha, investigamos los patrones de atención de los VLMs y descubrimos que: (1) la complejidad visual se correlaciona fuertemente con la entropía de la atención, impactando negativamente el rendimiento del razonamiento; (2) la atención se refina progresivamente desde un escaneo global en capas superficiales hasta una convergencia focalizada en capas más profundas, donde el grado de convergencia está determinado por la complejidad visual. (3) Teóricamente, demostramos que el contraste de los mapas de atención entre consultas generales y consultas específicas de tarea permite descomponer la señal visual en componentes de señales semánticas y ruido visual. Basándonos en estos hallazgos, proponemos el Refinamiento de Atención Contrastante para la Mejora Visual (CARVE, por sus siglas en inglés), un método sin necesidad de entrenamiento que extrae señales visuales relevantes para la tarea mediante el contraste de atención a nivel de píxel. Experimentos extensos demuestran que CARVE mejora consistentemente el rendimiento, logrando hasta un 75% de mejora en modelos de código abierto. Nuestro trabajo proporciona insights críticos sobre la interacción entre la complejidad visual y los mecanismos de atención, ofreciendo una vía eficiente para mejorar el razonamiento visual mediante el contraste de atención.
Los modelos unificados de comprensión y generación multimodal han logrado recientemente mejoras significativas en la capacidad de generación de imágenes, aunque persiste una brecha considerable en el seguimiento de instrucciones y la preservación de detalles en comparación con sistemas que acoplan estrechamente la comprensión con la generación, como GPT-4o. Motivados por los avances recientes en el razonamiento intercalado, exploramos si dicho razonamiento puede mejorar aún más la generación de texto a imagen (T2I). Introducimos Interleaving Reasoning Generation (IRG), un marco que alterna entre el pensamiento basado en texto y la síntesis de imágenes: el modelo primero produce un pensamiento basado en texto para guiar una imagen inicial, luego reflexiona sobre el resultado para refinar detalles finos, calidad visual y estética, preservando la semántica. Para entrenar IRG de manera efectiva, proponemos Interleaving Reasoning Generation Learning (IRGL), que se enfoca en dos subobjetivos: (1) fortalecer la etapa inicial de pensar y generar para establecer el contenido central y la calidad base, y (2) permitir una reflexión textual de alta calidad y la implementación fiel de esos refinamientos en una imagen posterior. Curiosamente, organizamos IRGL-300K, un conjunto de datos estructurado en seis modos de aprendizaje descompuestos que cubren conjuntamente el aprendizaje del pensamiento basado en texto y las trayectorias completas de pensamiento-imagen. Partiendo de un modelo base unificado que emite naturalmente salidas intercaladas de texto e imagen, nuestro entrenamiento en dos etapas primero construye un pensamiento y reflexión robustos, luego ajusta eficientemente la canalización IRG en los datos de trayectorias completas de pensamiento-imagen. Experimentos extensos muestran un rendimiento de vanguardia, obteniendo ganancias absolutas de 5-10 puntos en GenEval, WISE, TIIF, GenAI-Bench y OneIG-EN, junto con mejoras sustanciales en la calidad visual y la fidelidad de detalles finos. El código, los pesos del modelo y los conjuntos de datos se publicarán en: https://github.com/Osilly/Interleaving-Reasoning-Generation.
Presentamos UniVerse-1, un modelo unificado similar a Veo-3 capaz de generar simultáneamente audio y video coordinados. Para mejorar la eficiencia del entrenamiento, evitamos el entrenamiento desde cero y, en su lugar, empleamos una técnica de ensamblaje de expertos (SoE, por sus siglas en inglés). Este enfoque fusiona profundamente los bloques correspondientes de modelos preentrenados de generación de video y música, aprovechando así plenamente sus capacidades fundamentales. Para garantizar anotaciones precisas y una alineación temporal tanto de los sonidos ambientales como del habla con el contenido de video, desarrollamos una pipeline de anotación en línea que procesa los datos de entrenamiento necesarios y genera etiquetas durante el proceso de entrenamiento. Esta estrategia evita la degradación del rendimiento que suele ser causada por la desalineación de las anotaciones basadas en texto. Gracias a la sinergia de estas técnicas, nuestro modelo, después de ser ajustado con aproximadamente 7,600 horas de datos de audio-video, produce resultados con audio-visuales bien coordinados para la generación de sonidos ambientales y una fuerte alineación para la generación de habla. Para evaluar sistemáticamente nuestro método propuesto, presentamos Verse-Bench, un nuevo conjunto de datos de referencia. En un esfuerzo por avanzar en la investigación de la generación de audio-video y reducir la brecha de rendimiento con modelos de última generación como Veo3, ponemos a disposición pública nuestro modelo y código. Esperamos que esta contribución beneficie a la comunidad investigadora en general. Página del proyecto: https://dorniwang.github.io/UniVerse-1/.
La generación de texto a imagen (T2I, por sus siglas en inglés) tiene como objetivo sintetizar imágenes a partir de indicaciones textuales, las cuales especifican conjuntamente lo que debe mostrarse e implican lo que puede inferirse, correspondiendo así a dos capacidades fundamentales: composición y razonamiento. Sin embargo, con los avances emergentes de los modelos T2I en razonamiento más allá de la composición, los benchmarks existentes revelan limitaciones claras para proporcionar evaluaciones integrales tanto entre como dentro de estas capacidades. Al mismo tiempo, estos avances también permiten que los modelos manejen indicaciones más complejas, mientras que los benchmarks actuales siguen limitados a una baja densidad de escenas y un razonamiento simplificado de uno a uno. Para abordar estas limitaciones, proponemos T2I-CoReBench, un benchmark integral y complejo que evalúa tanto las capacidades de composición como de razonamiento de los modelos T2I. Para garantizar la exhaustividad, estructuramos la composición en torno a elementos de grafos de escenas (instancia, atributo y relación) y el razonamiento en torno al marco filosófico de la inferencia (deductiva, inductiva y abductiva), formulando una taxonomía de evaluación de 12 dimensiones. Para aumentar la complejidad, impulsados por las complejidades inherentes de los escenarios del mundo real, seleccionamos cada indicación con una alta densidad composicional para la composición y una inferencia de múltiples pasos para el razonamiento. También emparejamos cada indicación con una lista de verificación que especifica preguntas individuales de sí/no para evaluar cada elemento previsto de manera independiente, facilitando así una evaluación detallada y confiable. En términos estadísticos, nuestro benchmark comprende 1,080 indicaciones desafiantes y alrededor de 13,500 preguntas de lista de verificación. Los experimentos realizados en 27 modelos T2I actuales revelan que su capacidad de composición sigue siendo limitada en escenarios complejos de alta densidad, mientras que la capacidad de razonamiento se queda aún más atrás como un cuello de botella crítico, con todos los modelos luchando por inferir elementos implícitos a partir de las indicaciones. Nuestra página del proyecto: https://t2i-corebench.github.io/.
La integración de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) en la demostración automática de teoremas ha mostrado un potencial inmenso, aunque está fundamentalmente limitada por los desafíos en la escalabilidad tanto del aprendizaje por refuerzo (RL, por sus siglas en inglés) durante el entrenamiento como del cómputo durante la inferencia. Este artículo presenta BFS-Prover-V2, un sistema diseñado para abordar este problema de escalabilidad dual. Presentamos dos innovaciones principales. La primera es un marco novedoso de RL fuera de política de múltiples turnos para mejorar continuamente el rendimiento del demostrador de pasos basado en LLMs durante el entrenamiento. Este marco, inspirado en los principios de AlphaZero, utiliza una canalización de iteración experta en múltiples etapas que incluye filtrado adaptativo de datos a nivel de táctica y reentrenamiento periódico para superar las mesetas de rendimiento que suelen limitar el RL a largo plazo en agentes basados en LLMs. La segunda innovación es una arquitectura de búsqueda multiagente mejorada con un planificador que escala las capacidades de razonamiento durante la inferencia. Esta arquitectura emplea un modelo de razonamiento general como planificador de alto nivel para descomponer iterativamente teoremas complejos en una secuencia de subobjetivos más simples. Este enfoque jerárquico reduce sustancialmente el espacio de búsqueda, permitiendo que un equipo de agentes demostradores paralelos colaboren de manera eficiente al aprovechar una caché de pruebas compartida. Demostramos que este enfoque dual de escalabilidad produce resultados de vanguardia en benchmarks establecidos de matemáticas formales. BFS-Prover-V2 logra un 95,08 % y un 41,4 % en los conjuntos de prueba de MiniF2F y ProofNet, respectivamente. Aunque se ha demostrado en el ámbito de las matemáticas formales, las técnicas de RL e inferencia presentadas en este trabajo son de interés más amplio y pueden aplicarse a otros dominios que requieran razonamiento de múltiples turnos a largo plazo y búsquedas complejas.
Dotar a los modelos de lenguaje de gran escala (LLMs) con capacidades complejas de razonamiento intercalado y uso de herramientas se ha convertido en un enfoque clave en la investigación de IA agentiva, especialmente con los avances recientes en modelos orientados al razonamiento (``pensantes''). Estas capacidades son fundamentales para desbloquear una serie de aplicaciones importantes. Una de estas aplicaciones es la Investigación Profunda (Deep Research, DR), que requiere una búsqueda extensa y razonamiento sobre múltiples fuentes. Nuestro trabajo en este artículo se centra en el desarrollo de modelos autónomos de agente único nativos para DR, que incluyen un mínimo de rastreo web e integración de herramientas Python. A diferencia de los sistemas multiagente, donde los agentes asumen roles predefinidos y se les indica qué hacer en cada paso de un flujo de trabajo estático, un agente único autónomo determina su siguiente acción de manera dinámica basándose en el contexto, sin una directiva manual. Mientras que trabajos previos han propuesto recetas de entrenamiento para LLMs base o ajustados por instrucciones, nosotros nos enfocamos en el aprendizaje por refuerzo continuo (RL) de modelos optimizados para el razonamiento, con el fin de mejorar aún más las habilidades agentivas mientras se preserva la capacidad de razonamiento. Con este objetivo, proponemos una receta simple de RL con datos completamente sintéticos, que aplicamos a varios LLMs de código abierto. Nuestra mejor variante, SFR-DR-20B, alcanza hasta un 28.7% en el benchmark Humanity's Last Exam. Además, realizamos experimentos clave de análisis para proporcionar más información sobre nuestras metodologías.
El escalado en tiempo de prueba aumenta el cómputo durante la inferencia al permitir que los modelos generen cadenas de razonamiento largas, y ha demostrado un rendimiento sólido en muchos dominios. Sin embargo, en este trabajo, mostramos que este enfoque aún no es efectivo para tareas intensivas en conocimiento, donde la alta precisión factual y las bajas tasas de alucinación son esenciales. Realizamos una evaluación exhaustiva del escalado en tiempo de prueba utilizando 12 modelos de razonamiento en dos benchmarks intensivos en conocimiento. Nuestros resultados revelan que aumentar el cómputo en tiempo de prueba no mejora consistentemente la precisión y, en muchos casos, incluso conduce a más alucinaciones. Luego analizamos cómo el razonamiento extendido afecta el comportamiento de las alucinaciones. Descubrimos que la reducción de alucinaciones a menudo resulta de que el modelo elige abstenerse después de pensar más, en lugar de una mejora en la recuperación factual. Por el contrario, para algunos modelos, el razonamiento más prolongado fomenta intentos en preguntas previamente no respondidas, muchas de las cuales resultan en alucinaciones. Estudios de caso muestran que el razonamiento extendido puede inducir sesgo de confirmación, llevando a alucinaciones demasiado confiadas. A pesar de estas limitaciones, observamos que, en comparación con no pensar, habilitar el pensamiento sigue siendo beneficioso. El código y los datos están disponibles en https://github.com/XuZhao0/tts-knowledge.
La integración de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en diversas aplicaciones ha impulsado la necesidad de respuestas estructuradas y confiables. Un desafío clave en los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) es garantizar que las salidas se ajusten a los formatos esperados mientras se minimizan las alucinaciones. Este estudio examina el papel de la decodificación guiada en los sistemas RAG, comparando tres métodos: Outlines, XGrammar y LM Format Enforcer, en diferentes configuraciones de indicaciones de múltiples turnos (0-turnos, 1-turno y 2-turnos). Al evaluar las tasas de éxito, las tasas de alucinación y la calidad de la salida, proporcionamos información sobre su rendimiento y aplicabilidad. Nuestros hallazgos revelan cómo las interacciones de múltiples turnos influyen en la decodificación guiada, descubriendo variaciones inesperadas en el rendimiento que pueden informar la selección de métodos para casos de uso específicos. Este trabajo avanza en la comprensión de la generación de salidas estructuradas en los sistemas RAG, ofreciendo tanto perspectivas teóricas como orientación práctica para la implementación de LLMs.
El humor negro en los memes en línea presenta desafíos únicos debido a su dependencia de señales implícitas, sensibles y contextuales culturalmente. Para abordar la falta de recursos y métodos para detectar el humor negro en contenido multimodal, presentamos un nuevo conjunto de datos de 4,379 memes de Reddit anotados para humor negro, categoría objetivo (género, salud mental, violencia, raza, discapacidad y otros) y una calificación de intensidad de tres niveles (leve, moderado, severo). Basándonos en este recurso, proponemos un marco aumentado con razonamiento que primero genera explicaciones estructuradas para cada meme utilizando un Modelo de Visión y Lenguaje de Gran Escala (VLM, por sus siglas en inglés). A través de un Bucle de Autorreflexión de Cambio de Rol, el VLM adopta la perspectiva del autor para refinar iterativamente sus explicaciones, asegurando su completitud y alineación. Luego, extraemos características textuales tanto de la transcripción OCR como del razonamiento autorrefinado mediante un codificador de texto, mientras que las características visuales se obtienen utilizando un transformador de visión. Una Red de Razonamiento Cruzado de Tres Flujos (TCRNet, por sus siglas en inglés) fusiona estos tres flujos (texto, imagen y razonamiento) mediante mecanismos de atención por pares, produciendo una representación unificada para la clasificación. Los resultados experimentales demuestran que nuestro enfoque supera a las líneas base sólidas en tres tareas: detección de humor negro, identificación de objetivos y predicción de intensidad. El conjunto de datos, las anotaciones y el código se publican para facilitar investigaciones adicionales en la comprensión multimodal del humor y la moderación de contenido. El código y el conjunto de datos están disponibles en: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning.
Presentamos Llama-GENBA-10B, un modelo base trilingüe que aborda el sesgo centrado en el inglés en los modelos de lenguaje grandes. Construido sobre Llama 3.1-8B y escalado a 10 mil millones de parámetros, Llama-GENBA-10B se ha preentrenado continuamente con 164 mil millones de tokens (82 mil millones en inglés, 82 mil millones en alemán y 80 millones en bávaro), equilibrando los recursos mientras se previene el dominio del inglés. Dirigido a la comunidad de procesamiento de lenguaje natural (NLP) en alemán, el modelo también promueve el bávaro como un idioma de bajos recursos. El desarrollo abordó cuatro desafíos: (1) la curación de un corpus multilingüe a pesar de la escasez de datos en bávaro, (2) la creación de un tokenizador unificado para inglés, alemán y bávaro, (3) la optimización de la arquitectura y los hiperparámetros de proporción de idiomas para la transferencia cruzada de idiomas, y (4) el establecimiento de la primera suite de evaluación trilingüe estandarizada mediante la traducción de benchmarks alemanes al bávaro. Las evaluaciones muestran que Llama-GENBA-10B logra un fuerte rendimiento cruzado de idiomas, con la variante ajustada superando a Apertus-8B-2509 y gemma-2-9b en bávaro y posicionándose como el mejor modelo en su clase para este idioma, mientras también supera a EuroLLM en inglés y empata con sus resultados en alemán. El entrenamiento en el Cerebras CS-2 demostró un preentrenamiento multilingüe a gran escala eficiente con un uso de energía documentado, ofreciendo un modelo para la creación de modelos base inclusivos que integran idiomas de bajos recursos.
La edición de imágenes basada en arrastre ha surgido como un paradigma poderoso para la manipulación intuitiva de imágenes. Sin embargo, los enfoques existentes se basan predominantemente en la manipulación del espacio latente de modelos generativos, lo que conduce a una precisión limitada, retroalimentación retardada y restricciones específicas del modelo. En consecuencia, presentamos Inpaint4Drag, un marco novedoso que descompone la edición basada en arrastre en deformación bidireccional en el espacio de píxeles y restauración de imágenes. Inspirados por la deformación elástica de objetos en el mundo físico, tratamos las regiones de la imagen como materiales deformables que mantienen una forma natural bajo la manipulación del usuario. Nuestro método logra vistas previas de deformación en tiempo real (0.01s) y restauración eficiente (0.3s) en una resolución de 512x512, mejorando significativamente la experiencia de interacción en comparación con los métodos existentes que requieren minutos por edición. Al transformar las entradas de arrastre directamente en formatos estándar de restauración, nuestro enfoque sirve como un adaptador universal para cualquier modelo de restauración sin necesidad de modificar su arquitectura, heredando automáticamente todas las mejoras futuras en la tecnología de restauración. Experimentos extensivos demuestran que nuestro método logra una calidad visual superior y un control preciso mientras mantiene un rendimiento en tiempo real. Página del proyecto: https://visual-ai.github.io/inpaint4drag/
En este documento de posición, abordamos la brecha persistente entre el rápido crecimiento de las capacidades de la IA y el progreso rezagado en seguridad. Los paradigmas existentes se dividen en "Hacer que la IA sea segura", que aplica alineación y salvaguardias a posteriori pero sigue siendo frágil y reactivo, y "Crear IA segura", que enfatiza la seguridad intrínseca pero lucha por abordar riesgos imprevistos en entornos abiertos. Por lo tanto, proponemos la seguridad por coevolución como una nueva formulación del paradigma "Crear IA segura", inspirada en la inmunidad biológica, donde la seguridad se convierte en un proceso dinámico, adversarial y de aprendizaje continuo. Para operacionalizar esta visión, presentamos R^2AI —IA Resistente y Resiliente— como un marco práctico que une la resistencia contra amenazas conocidas con la resiliencia ante riesgos imprevistos. R^2AI integra modelos de seguridad rápidos y lentos, simulación y verificación adversarial a través de un túnel de viento de seguridad, y bucles de retroalimentación continua que guían la coevolución de la seguridad y las capacidades. Argumentamos que este marco ofrece un camino escalable y proactivo para mantener la seguridad continua en entornos dinámicos, abordando tanto vulnerabilidades a corto plazo como riesgos existenciales a largo plazo a medida que la IA avanza hacia AGI y ASI.
Los modelos Visión-Lenguaje-Acción (VLA) representan una vía prometedora para lograr agentes corporizados generalistas capaces de adaptarse rápidamente a nuevas tareas, modalidades y entornos. Sin embargo, los métodos para interpretar y dirigir los VLA están muy por detrás de las pipelines clásicas de robótica, que se basan en modelos explícitos de cinemática, dinámica y control. Esta falta de comprensión mecanicista es un desafío central para implementar políticas aprendidas en robótica del mundo real, donde la robustez y la explicabilidad son críticas. Motivados por los avances en interpretabilidad mecanicista para modelos de lenguaje grandes, introducimos el primer marco para interpretar y dirigir los VLA a través de sus representaciones internas, permitiendo la intervención directa en el comportamiento del modelo durante la inferencia. Proyectamos las activaciones feedforward dentro de las capas del transformador sobre la base de incrustación de tokens, identificando direcciones semánticas dispersas -como velocidad y dirección- que están causalmente vinculadas a la selección de acciones. Aprovechando estos hallazgos, introducimos un método de dirección de activaciones de propósito general que modula el comportamiento en tiempo real, sin necesidad de ajuste fino, señales de recompensa o interacción con el entorno. Evaluamos este método en dos VLA de código abierto recientes, Pi0 y OpenVLA, y demostramos control de comportamiento zero-shot en simulación (LIBERO) y en un robot físico (UR5). Este trabajo demuestra que los componentes interpretables de los VLA corporizados pueden ser aprovechados sistemáticamente para el control, estableciendo un nuevo paradigma para modelos fundacionales transparentes y dirigibles en robótica.
Para mejorar la eficiencia de los agentes de interfaz gráfica de usuario (GUI) en diversas plataformas como teléfonos inteligentes y computadoras, un paradigma híbrido que combina operaciones flexibles de GUI con accesos directos eficientes (por ejemplo, API, enlaces profundos) está surgiendo como una dirección prometedora. Sin embargo, un marco para evaluar sistemáticamente estos agentes híbridos aún está poco explorado. Para dar el primer paso en cerrar esta brecha, presentamos MAS-Bench, un punto de referencia que pionero en la evaluación de agentes híbridos de GUI y accesos directos, con un enfoque específico en el dominio móvil. Más allá de simplemente utilizar accesos directos predefinidos, MAS-Bench evalúa la capacidad de un agente para generar accesos directos de manera autónoma, descubriendo y creando flujos de trabajo reutilizables y de bajo costo. Incluye 139 tareas complejas en 11 aplicaciones del mundo real, una base de conocimiento de 88 accesos directos predefinidos (API, enlaces profundos, scripts de RPA) y 7 métricas de evaluación. Las tareas están diseñadas para ser resolubles mediante operaciones exclusivas de GUI, pero pueden acelerarse significativamente mediante la integración inteligente de accesos directos. Los experimentos muestran que los agentes híbridos logran tasas de éxito y eficiencia significativamente más altas que sus contrapartes exclusivas de GUI. Este resultado también demuestra la efectividad de nuestro método para evaluar las capacidades de generación de accesos directos de un agente. MAS-Bench llena un vacío crítico en la evaluación, proporcionando una plataforma fundamental para futuros avances en la creación de agentes inteligentes más eficientes y robustos.
Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) como CLIP han demostrado capacidades impresionantes de aprendizaje zero-shot y few-shot en diversas aplicaciones. Sin embargo, adaptar estos modelos a nuevos dominios de gran detalle sigue siendo difícil debido a la dependencia de la ingeniería de prompts y al alto costo del ajuste fino completo del modelo. Los enfoques de adaptación existentes se basan en componentes adicionales, como tokens de prompts y módulos adaptadores, lo que podría limitar la calidad de la adaptación, desestabilizar el modelo y comprometer el conocimiento rico aprendido durante el preentrenamiento. En este trabajo, presentamos CLIP-SVD, una técnica novedosa de adaptación multimodal y eficiente en parámetros que aprovecha la Descomposición en Valores Singulares (SVD) para modificar el espacio de parámetros interno de CLIP sin inyectar módulos adicionales. Específicamente, ajustamos solo los valores singulares de las matrices de parámetros de CLIP para reescalar los vectores base y lograr la adaptación al dominio, manteniendo el modelo preentrenado. Este diseño permite un rendimiento de adaptación mejorado utilizando solo el 0.04\% de los parámetros totales del modelo y una mejor preservación de su capacidad de generalización. CLIP-SVD logra resultados de clasificación de vanguardia en 11 conjuntos de datos naturales y 10 biomédicos, superando a métodos anteriores tanto en precisión como en generalización en entornos few-shot. Además, utilizamos un enfoque basado en lenguaje natural para analizar la efectividad y dinámica de la adaptación de CLIP, lo que permite la interpretabilidad de CLIP-SVD. El código está disponible públicamente en https://github.com/HealthX-Lab/CLIP-SVD.
La escasez de datos de alta calidad y lógicamente sólidos es un cuello de botella crítico para avanzar en el razonamiento matemático de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Nuestro trabajo aborda este desafío transformando décadas de investigación en demostración automática de teoremas en un motor de datos escalable. En lugar de depender de LLMs propensos a errores o de sintaxis complejas de asistentes de demostración como Lean e Isabelle, nuestro marco aprovecha las capacidades de saturación de E-prover en la vasta biblioteca de axiomas TPTP para derivar un corpus masivo de teoremas garantizados como válidos. Nuestra canalización es fundamentada y simple: saturar axiomas, filtrar teoremas "interesantes" y generar tareas. Al no incluir LLMs en el proceso, eliminamos errores fácticos por construcción. Estos datos puramente simbólicos se transforman luego en tres desafíos controlados por dificultad: verificación de implicación, selección de premisas y reconstrucción de demostraciones. Nuestros experimentos de cero disparos en modelos de vanguardia revelan una debilidad clara: el rendimiento colapsa en tareas que requieren un razonamiento profundo y estructural. Nuestro marco proporciona tanto la herramienta de diagnóstico para medir esta brecha como una fuente escalable de datos de entrenamiento simbólicos para abordarla. Hacemos público el código y los datos. https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
El registro de nubes de puntos LiDAR es fundamental para la percepción y navegación robótica. Sin embargo, en entornos geométricamente degenerados o estrechos, los problemas de registro se vuelven mal condicionados, lo que conduce a soluciones inestables y a una precisión degradada. Aunque los enfoques existentes intentan manejar estos problemas, no abordan el desafío central: detectar, interpretar y resolver con precisión este mal condicionamiento, lo que resulta en detecciones fallidas o soluciones corruptas. En este estudio, presentamos DCReg, un marco de trabajo fundamentado que aborda sistemáticamente los problemas de registro mal condicionados a través de tres innovaciones integradas. Primero, DCReg logra una detección confiable del mal condicionamiento empleando una descomposición del complemento de Schur en la matriz hessiana. Esta técnica desacopla el problema de registro en subespacios rotacionales y traslacionales limpios, eliminando los efectos de acoplamiento que enmascaran los patrones de degeneración en los análisis convencionales. Segundo, dentro de estos subespacios limpios, desarrollamos técnicas de caracterización cuantitativa que establecen mapeos explícitos entre los espacios propios matemáticos y las direcciones de movimiento físico, proporcionando insights accionables sobre qué movimientos específicos carecen de restricciones. Finalmente, aprovechando este subespacio limpio, diseñamos una estrategia de mitigación dirigida: un nuevo precondicionador que estabiliza selectivamente solo las direcciones mal condicionadas identificadas, preservando toda la información bien restringida en el espacio observable. Esto permite una optimización eficiente y robusta mediante el método del Gradiente Conjugado Precondicionado con un único parámetro físicamente interpretable. Experimentos extensivos demuestran que DCReg logra una mejora de al menos 20% - 50% en la precisión de localización y una aceleración de 5 a 100 veces sobre los métodos más avanzados en diversos entornos. Nuestra implementación estará disponible en https://github.com/JokerJohn/DCReg.