Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos LongCat-Flash-Thinking-2601, un modelo de razonamiento de código abierto con 560 mil millones de parámetros basado en Mezcla de Expertos (MoE) que posee una capacidad de razonamiento agéntico superior. LongCat-Flash-Thinking-2601 logra un rendimiento de vanguardia entre los modelos de código abierto en una amplia gama de benchmarks agénticos, incluyendo búsqueda agéntica, uso de herramientas agénticas y razonamiento con herramientas integradas. Más allá del rendimiento en benchmarks, el modelo demuestra una fuerte generalización a interacciones complejas con herramientas y un comportamiento robusto en entornos reales ruidosos. Su capacidad avanzada surge de un marco de entrenamiento unificado que combina el entrenamiento de expertos en paralelo por dominio con una fusión posterior, junto con un co-diseño integral de la construcción de datos, entornos, algoritmos e infraestructura que abarca desde el pre-entrenamiento hasta el post-entrenamiento. En particular, la fuerte capacidad de generalización del modelo en el uso complejo de herramientas está impulsada por nuestra exploración en profundidad del escalado de entornos y la construcción de tareas basada en principios. Para optimizar la generación de cola larga y sesgada y las interacciones agénticas multi-turno, y para permitir un entrenamiento estable en más de 10.000 entornos que abarcan más de 20 dominios, extendemos sistemáticamente nuestro marco de aprendizaje por refuerzo asíncrono, DORA, para un entrenamiento a gran escala multi-entorno estable y eficiente. Además, reconociendo que las tareas del mundo real son inherentemente ruidosas, realizamos un análisis sistemático y una descomposición de los patrones de ruido del mundo real, y diseñamos procedimientos de entrenamiento específicos para incorporar explícitamente tales imperfecciones en el proceso de entrenamiento, lo que resulta en una mayor robustez para aplicaciones reales. Para mejorar aún más el rendimiento en tareas de razonamiento complejo, introducimos un modo Pensamiento Pesado (Heavy Thinking) que permite un escalado efectivo en tiempo de prueba mediante la expansión conjunta de la profundidad y amplitud del razonamiento a través de un pensamiento paralelo intensivo.
Los agentes de LLM han demostrado capacidades notables en el desarrollo de software, pero su rendimiento se ve obstaculizado por contextos de interacción largos, que conllevan altos costos de API y latencia. Si bien han surgido diversos enfoques de compresión de contexto, como LongLLMLingua, para abordar este desafío, estos suelen depender de métricas fijas como el PPL (Perplejidad), ignorando la naturaleza específica de la tarea en la comprensión de código. Como resultado, frecuentemente alteran la estructura sintáctica y lógica y no logran retener detalles de implementación críticos. En este artículo, proponemos SWE-Pruner, un marco de poda de contexto auto-adaptable diseñado específicamente para agentes de programación. Inspirándonos en cómo los programadores humanos "leen selectivamente" el código fuente durante el desarrollo y la depuración, SWE-Pruner realiza una poda adaptativa consciente de la tarea para contextos largos. Dada la tarea actual, el agente formula un objetivo explícito (por ejemplo, "centrarse en el manejo de errores") como una pista para guiar los objetivos de la poda. Se entrena un "skimmer" neuronal ligero (0.600 millones de parámetros) para seleccionar dinámicamente líneas relevantes del contexto circundante según el objetivo. Las evaluaciones en cuatro benchmarks y con múltiples modelos validan la efectividad de SWE-Pruner en varios escenarios, logrando una reducción de tokens del 23-54% en tareas de agente como SWE-Bench Verified y hasta una compresión de 14.84x en tareas de un solo turno como LongCodeQA, con un impacto mínimo en el rendimiento.
Los modelos estándar Visión-Lenguaje-Acción (VLA) normalmente ajustan un modelo monolítico de base (VLM) explícitamente para el control robótico. Sin embargo, este enfoque crea una tensión crítica entre mantener una comprensión semántica general de alto nivel y aprender habilidades sensorimotoras de bajo nivel y grano fino, lo que a menudo conduce a un "olvido catastrófico" de las capacidades de mundo abierto del modelo. Para resolver este conflicto, presentamos TwinBrainVLA, una arquitectura novedosa que coordina un VLM generalista que conserva la comprensión semántica universal y un VLM especialista dedicado a la propiocepción corporeizada para el control robótico conjunto. TwinBrainVLA sinergiza un "Cerebro Izquierdo" congelado, que conserva un razonamiento visual general robusto, con un "Cerebro Derecho" entrenable, especializado en percepción corporeizada, mediante un nuevo mecanismo de Mezcla Asimétrica de Transformadores (AsyMoT). Este diseño permite al Cerebro Derecho consultar dinámicamente conocimiento semántico del Cerebro Izquierdo congelado y fusionarlo con estados propioceptivos, proporcionando un acondicionamiento enriquecido para que un Experto en Acciones por Correspondencia de Flujos genere controles continuos precisos. Experimentos exhaustivos en los benchmarks SimplerEnv y RoboCasa demuestran que TwinBrainVLA logra un rendimiento de manipulación superior en comparación con los baselines de última generación, al mismo tiempo que preserva explícitamente las capacidades de comprensión visual integral del VLM preentrenado, ofreciendo una dirección prometedora para construir robots de propósito general que logren simultáneamente una comprensión semántica de alto nivel y una destreza física de bajo nivel.
Los Modelos de Visión y Lenguaje (VLMs) modernos siguen estando poco caracterizados en interacciones visuales de múltiples pasos, particularmente en cómo integran percepción, memoria y acción a lo largo de horizontes temporales largos. Presentamos VisGym, un gimnasio de 17 entornos para evaluar y entrenar VLMs. La suite abarca desde rompecabezas simbólicos hasta comprensión de imágenes reales, navegación y manipulación, y ofrece controles flexibles sobre la dificultad, la representación de la entrada, el horizonte de planificación y la retroalimentación. También proporcionamos solucionadores de múltiples pasos que generan demostraciones estructuradas, permitiendo el ajuste fino supervisado. Nuestras evaluaciones muestran que todos los modelos de vanguardia tienen dificultades en entornos interactivos, logrando bajas tasas de éxito tanto en configuraciones fáciles (46.6%) como difíciles (26.0%). Nuestros experimentos revelan limitaciones notables: los modelos luchan por aprovechar eficazmente contextos largos, obteniendo peores resultados con un historial ilimitado que con ventanas truncadas. Además, encontramos que varias tareas simbólicas basadas en texto se vuelven sustancialmente más difíciles una vez se representan visualmente. Sin embargo, las observaciones explícitas de objetivos, la retroalimentación textual y las demostraciones exploratorias en entornos de observación parcial o dinámicas desconocidas para el ajuste fino supervisado producen ganancias consistentes, destacando modos de fallo concretos y vías para mejorar la toma de decisiones visuales multi-paso. El código, los datos y los modelos pueden encontrarse en: https://visgym.github.io/.
Los modelos de difusión recientes de video a video han logrado resultados impresionantes en la edición de videos proporcionados por usuarios mediante la modificación de apariencia, movimiento o desplazamiento de cámara. Sin embargo, la edición de video en el mundo real suele ser un proceso iterativo, donde los usuarios refinan los resultados a través de múltiples rondas de interacción. En este entorno de múltiples iteraciones, los editores de video actuales tienen dificultades para mantener la coherencia transversal entre ediciones secuenciales. En este trabajo, abordamos por primera vez el problema de la coherencia transversal en la edición de video multi-iteración e introducimos Memory-V2V, un marco simple pero efectivo que aumenta los modelos existentes de video a video con memoria explícita. Dada una caché externa de videos editados previamente, Memory-V2V emplea estrategias de recuperación precisa y tokenización dinámica para condicionar el paso de edición actual en función de resultados anteriores. Para mitigar aún más la redundancia y la sobrecarga computacional, proponemos un compresor de tokens entrenable dentro del backbone DiT que comprime los tokens de condicionamiento redundantes mientras preserva pistas visuales esenciales, logrando una aceleración general del 30%. Validamos Memory-V2V en tareas desafiantes que incluyen síntesis de nueva perspectiva de video y edición de video largo condicionada por texto. Experimentos exhaustivos demuestran que Memory-V2V produce videos significativamente más coherentes transversalmente con una sobrecarga computacional mínima, manteniendo o incluso mejorando el rendimiento específico de la tarea respecto a los métodos de vanguardia. Página del proyecto: https://dohunlee1.github.io/MemoryV2V
Los recientes avances en Agentes de Investigación Profunda (DRAs) están transformando el descubrimiento automatizado de conocimiento y la resolución de problemas. Si bien la mayoría de los esfuerzos existentes se centran en mejorar las capacidades de la política mediante el post-entrenamiento, proponemos un paradigma alternativo: la auto-evolución de la capacidad del agente mediante la verificación iterativa de las salidas del modelo de política, guiada por rúbricas meticulosamente elaboradas. Este enfoque da lugar al escalado en tiempo de inferencia de la verificación, mediante el cual un agente se auto-mejora evaluando sus respuestas generadas para producir retroalimentación y refinamientos iterativos. Derivamos las rúbricas basándonos en una Taxonomía de Fallos de DRA construida automáticamente, que clasifica sistemáticamente los fallos de los agentes en cinco categorías principales y trece subcategorías. Presentamos DeepVerifier, un verificador de recompensa por resultados basado en rúbricas que aprovecha la asimetría de la verificación y supera a los baselines de agente-como-juez básico y juez LLM en un 12%-48% en la puntuación F1 de meta-evaluación. Para permitir una auto-evolución práctica, DeepVerifier se integra como un módulo plug-and-play durante la inferencia en tiempo de prueba. El verificador genera una retroalimentación detallada basada en rúbricas, que se retroalimenta al agente para un bootstrapping iterativo, refinando las respuestas sin entrenamiento adicional. Este escalado en tiempo de prueba proporciona ganancias de precisión del 8% al 11% en subconjuntos desafiantes de GAIA y XBench-DeepResearch cuando se impulsa con LLMs cerrados capaces. Finalmente, para apoyar el avance del código abierto, publicamos DeepVerifier-4K, un conjunto de datos curado de ajuste fino supervisado de 4,646 pasos de agente de alta calidad centrados en la verificación de DRA. Estos ejemplos enfatizan la reflexión y la autocrítica, permitiendo que los modelos abiertos desarrollen capacidades de verificación robustas.
El aprendizaje por refuerzo (RL) es fundamental para mejorar las capacidades de razonamiento complejo de los modelos de lenguaje grandes (LLM). Sin embargo, las canalizaciones de entrenamiento de RL existentes son computacionalmente ineficientes y requieren muchos recursos, siendo la fase de ejecución (rollout) la responsable de más del 70% del tiempo total de entrenamiento. El entrenamiento de RL cuantizado, particularmente el uso de precisión FP8, ofrece un enfoque prometedor para mitigar este cuello de botella. Una estrategia comúnmente adoptada aplica precisión FP8 durante la ejecución, manteniendo la precisión BF16 para el entrenamiento. En este trabajo, presentamos el primer estudio integral del entrenamiento de RL con FP8 y demostramos que la estrategia ampliamente utilizada de "entrenamiento-BF16 + ejecución-FP8" sufre de una grave inestabilidad en el entrenamiento y un colapso catastrófico de la precisión bajo ejecuciones de horizonte largo y tareas desafiantes. Nuestro análisis muestra que estos fallos se originan en la naturaleza fuera de política (off-policy) del enfoque, que introduce una discrepancia numérica sustancial entre el entrenamiento y la inferencia. Motivados por estas observaciones, proponemos Jet-RL, un marco de entrenamiento de RL con FP8 que permite una optimización de RL robusta y estable. La idea clave es adoptar un flujo de precisión FP8 unificado tanto para el entrenamiento como para la ejecución, minimizando así las discrepancias numéricas y eliminando la necesidad de una calibración entre pasos ineficiente. Experimentos exhaustivos validan la efectividad de Jet-RL: nuestro método logra hasta un 33% de aceleración en la fase de ejecución, hasta un 41% de aceleración en la fase de entrenamiento, y una aceleración integral del 16% sobre el entrenamiento BF16, manteniendo una convergencia estable en todos los escenarios y con una degradación de precisión insignificante.
Aunque la inteligencia artificial (IA) se ha integrado profundamente en diversas etapas del flujo de trabajo investigador y ha logrado avances notables, la refutación académica sigue siendo un desafío significativo y poco explorado. Esto se debe a que la refutación es un proceso complejo de comunicación estratégica bajo una severa asimetría de información, más que un simple debate técnico. En consecuencia, los enfoques actuales tropiezan al imitar en gran medida aspectos lingüísticos superficiales, omitiendo el elemento esencial de la adopción de perspectivas necesario para una persuasión efectiva. En este artículo, presentamos RebuttalAgent, el primer marco que fundamenta la refutación académica en la Teoría de la Mente (ToM), operacionalizada mediante una canalización ToM-Estrategia-Respuesta (TSR) que modela el estado mental del revisor, formula una estrategia de persuasión y genera una respuesta fundamentada en la estrategia. Para entrenar nuestro agente, construimos RebuttalBench, un conjunto de datos a gran escala sintetizado mediante un novedoso enfoque de crítica y refinamiento. Nuestro proceso de entrenamiento consta de dos etapas, comenzando con una fase de ajuste fino supervisado para dotar al agente de capacidades de análisis basadas en la ToM y planificación estratégica, seguida de una fase de aprendizaje por refuerzo que aprovecha un mecanismo de autorecompensa para una mejora autoescalable. Para una evaluación automatizada fiable y eficiente, desarrollamos además Rebuttal-RM, un evaluador especializado entrenado con más de 100.000 muestras de datos de refutación de múltiples fuentes, que logra una consistencia de puntuación con las preferencias humanas que supera al potente modelo juez GPT-4.1. Experimentos exhaustivos muestran que RebuttalAgent supera significativamente al modelo base en un promedio del 18.3% en métricas automatizadas, mientras que también supera a modelos propietarios avanzados tanto en evaluaciones automatizadas como humanas. Aviso: el contenido de refutación generado es solo de referencia para inspirar a los autores y asistir en la redacción. No está destinado a reemplazar el análisis crítico y la respuesta propios del autor.
Los Transformadores de Difusión han demostrado recientemente un rendimiento notable en la generación de videos. Sin embargo, las secuencias de entrada largas resultan en una alta latencia computacional debido a la complejidad cuadrática de la atención completa. Se han propuesto varios mecanismos de atención dispersa. La atención dispersa sin entrenamiento está limitada por una dispersión reducida y, por lo tanto, ofrece una aceleración modesta, mientras que los métodos basados en entrenamiento pueden alcanzar una dispersión mucho mayor pero requieren sustanciales datos y computación para el entrenamiento. En este trabajo, proponemos SALAD, introduciendo una rama de atención lineal ligera en paralelo con la atención dispersa. Al incorporar un mecanismo de compuerta dependiente de la entrada para equilibrar finamente las dos ramas, nuestro método alcanza un 90% de dispersión y una aceleración de la inferencia de 1.72x, manteniendo una calidad de generación comparable con la línea base de atención completa. Además, nuestro proceso de ajuste fino es altamente eficiente, requiriendo solo 2,000 muestras de video y 1,600 pasos de entrenamiento con un tamaño de lote de 8.
Los agentes de ciencia de datos prometen acelerar el descubrimiento y la generación de conocimientos mediante la transformación de datos en análisis y hallazgos ejecutables. Sin embargo, los puntos de referencia existentes en ciencia de datos son insuficientes debido a interfaces de evaluación fragmentadas que dificultan la comparación cruzada, una cobertura limitada de tareas y la falta de una base de datos rigurosa. En particular, demostramos que una porción sustancial de las tareas en los puntos de referencia actuales puede resolverse sin utilizar los datos reales. Para abordar estas limitaciones, presentamos DSGym, un marco estandarizado para evaluar y entrenar agentes de ciencia de datos en entornos de ejecución autónomos. A diferencia de los puntos de referencia estáticos, DSGym proporciona una arquitectura modular que facilita la incorporación de tareas, estructuras de agentes y herramientas, posicionándolo como un banco de pruebas vivo y extensible. Curaremos DSGym-Tasks, un conjunto integral de tareas que estandariza y refina los puntos de referencia existentes mediante filtros de calidad y capacidad de resolución por atajos. Ampliamos aún más la cobertura con (1) DSBio: tareas de bioinformática derivadas de expertos basadas en literatura científica y (2) DSPredict: tareas de predicción desafiantes que abarcan dominios como visión por computadora, predicción molecular y perturbación de células individuales. Más allá de la evaluación, DSGym permite el entrenamiento de agentes mediante una tubería de síntesis de datos verificada por ejecución. Como estudio de caso, construimos un conjunto de entrenamiento de 2,000 ejemplos y entrenamos un modelo de 4B en DSGym que supera a GPT-4o en puntos de referencia de análisis estandarizados. En general, DSGym permite una medición rigurosa de extremo a extremo sobre si los agentes pueden planificar, implementar y validar análisis de datos en contextos científicos realistas.
La toma de decisiones estratégicas en entornos multiagente es un desafío clave para los grandes modelos de lenguaje (LLM), particularmente cuando la coordinación y la negociación deben desarrollarse en conversaciones prolongadas. Si bien trabajos recientes han explorado el uso de LLM en tareas de decisión aisladas, se ha prestado poca atención a la optimización de objetivos a largo plazo mediante el diálogo. Presentamos GameTalk, un marco para entrenar LLMs en la toma de decisiones estratégicas a través de interacciones multiturno. A diferencia de trabajos previos que se centran en objetivos de un solo turno o en la predicción de acciones estáticas, entrenamos a los LLMs para optimizar un objetivo global a lo largo de conversaciones completas. Logramos esto adaptando métodos de ajuste fino como GRPO, DPO y STaR para incorporar señales de recompensa que dependen de toda la interacción. Evaluamos este enfoque en un conjunto de juegos de complejidad creciente, diseñados para poner a prueba diferentes aspectos del razonamiento, la coordinación y el modelado de oponentes. Nuestros resultados muestran que GameTalk supera significativamente a los modelos sin entrenar, especialmente bajo configuración de recompensas, siendo DPO el método que consistentemente produce las mayores mejoras. Estos hallazgos posicionan al ajuste fino conversacional como un camino prometedor para que los LLMs razonen, negocien y actúen en entornos interactivos.
Los avances recientes han ampliado el papel de los Modelos de Lenguaje a Gran Escala en los juegos de mesa, pasando de ser agentes jugadores a co-diseñadores creativos. Sin embargo, persiste una brecha crítica: los sistemas actuales carecen de la capacidad de ofrecer una crítica constructiva basada en la experiencia de usuario emergente. Salvar esta brecha es fundamental para armonizar la colaboración Humano-IA, ya que permite a los diseñadores refinar sus creaciones mediante perspectivas externas, al mismo tiempo que guía a los modelos lejos de resultados sesgados o impredecibles. La automatización de la crítica para juegos de mesa presenta dos desafíos: inferir las dinámicas latentes que conectan las reglas con la jugabilidad sin un motor explícito, y modelar la heterogeneidad subjetiva de diversos grupos de jugadores. Para abordarlos, hemos recopilado un conjunto de datos de 1.727 manuales de reglas estructuralmente corregidos y 150.000 reseñas seleccionadas mediante puntuación de calidad y muestreo consciente de facetas. Aumentamos estos datos con razonamiento Mecánicas-Dinámicas-Estéticas (MDA) para tender un puente explícito entre las reglas escritas y la experiencia del jugador. Además, destilamos arquetipos de jugador e introducimos MeepleLM, un modelo especializado que internaliza patrones de razonamiento específicos de cada arquetipo para simular con precisión la retroalimentación subjetiva de diversos perfiles de jugadores. Los experimentos demuestran que MeepleLM supera significativamente a los últimos modelos comerciales (por ejemplo, GPT-5.1, Gemini3-Pro) en alineación comunitaria y calidad de la crítica, logrando una tasa de preferencia del 70% en estudios de usuarios que evalúan su utilidad. MeepleLM sirve como un probador virtual confiable para sistemas interactivos generales, marcando un paso pivotal hacia una colaboración Humano-IA consciente de la experiencia y alineada con la audiencia.
Este artículo presenta los modelos Mecellem, un marco para desarrollar modelos de lenguaje especializados para el dominio legal turco mediante estrategias de adaptación de dominio. Realizamos dos contribuciones: (1) Modelo Codificador Pre-entrenado desde Cero: Codificadores bidireccionales basados en ModernBERT pre-entrenados en un corpus predominantemente turco de 112.7 mil millones de tokens. Implementamos una estrategia de selección de puntos de control que evalúa el rendimiento en recuperación de información (retrieval) durante el entrenamiento, revelando que los puntos de control óptimos alcanzan los mejores puntajes de recuperación antes de que la pérdida del pre-entrenamiento llegue a su mínimo. Nuestros modelos codificadores alcanzan clasificaciones entre los tres primeros puestos en el ranking de recuperación en turco, con modelos más pequeños (155M parámetros) logrando un rendimiento comparable al de modelos de referencia más grandes (307M-567M parámetros). Nuestro enfoque alcanza un 92.36% de eficiencia en producción en comparación con modelos de última generación (embeddinggemma-300m: 100.00%, BAAI/bge-m3: 99.54%, newmindai/bge-m3-stsb: 94.38%), ocupando el cuarto lugar general a pesar de requerir menos recursos computacionales. Los modelos SOTA dependen de pipelines de entrenamiento multi-etapa y computacionalmente intensivos, lo que convierte a nuestro enfoque de pre-entrenamiento en una sola etapa seguido de un post-entrenamiento eficiente en una alternativa rentable; (2) Modelo Decodificador con Pre-entrenamiento Continuo (CPT): Modelos Qwen3-1.7B y Qwen3-4B adaptados al dominio legal turco mediante aprendizaje curricular controlado. Un CPT de cuatro fases con proporciones de muestra óptimas permite una transición gradual desde el conocimiento lingüístico general hacia la terminología legal especializada y el razonamiento de contexto largo. Este enfoque logra una reducción del 36.2% en la perplejidad sobre texto legal turco, demostrando las ganancias de la adaptación de dominio.
El razonamiento sobre gráficos es una capacidad crítica para los Modelos de Lenguaje Visual (VLMs). Sin embargo, el desarrollo de modelos de código abierto se ve severamente obstaculizado por la falta de datos de entrenamiento de alta calidad. Los conjuntos de datos existentes adolecen de un doble desafío: los gráficos sintéticos suelen ser simplistas y repetitivos, mientras que los pares de preguntas y respuestas asociados son propensos a alucinaciones y carecen de la profundidad de razonamiento necesaria para tareas complejas. Para salvar esta brecha, proponemos ChartVerse, un marco escalable diseñado para sintetizar gráficos complejos y datos de razonamiento confiables desde cero. (1) Para abordar el cuello de botella de los patrones simples, primero introducimos la Entropía Posterior de Despliegue (RPE), una métrica novedosa que cuantifica la complejidad de los gráficos. Guiados por la RPE, desarrollamos un codificador de gráficos consciente de la complejidad para sintetizar de forma autónoma gráficos diversos y de alta complejidad mediante programas ejecutables. (2) Para garantizar el rigor del razonamiento, desarrollamos una síntesis inversa de preguntas y respuestas anclada en la verdad. A diferencia de la generación estándar, adoptamos un paradigma de respuesta-primero: extraemos respuestas determinísticas directamente del código fuente, generamos preguntas condicionadas a estos anclajes y aplicamos una verificación de consistencia estricta. Para elevar aún más la dificultad y la profundidad del razonamiento, filtramos muestras basándonos en la tasa de error del modelo y destilamos un razonamiento de Cadena de Pensamiento (CoT) de alta calidad. Curaremos ChartVerse-SFT-600K y ChartVerse-RL-40K utilizando Qwen3-VL-30B-A3B-Thinking como modelo profesor. Los resultados experimentales demuestran que ChartVerse-8B logra un rendimiento de vanguardia, superando notablemente a su modelo profesor y rivalizando con el más potente Qwen3-VL-32B-Thinking.
Los entornos son el cuello de botella para los agentes de auto-mejora. Los benchmarks de terminal actuales fueron construidos para evaluación, no para entrenamiento; el aprendizaje por refuerzo requiere una pipeline escalable, no solo un conjunto de datos. Presentamos Endless Terminals, una pipeline completamente autónoma que genera de manera procedural tareas de uso de terminal sin anotación humana. La pipeline consta de cuatro etapas: generación de descripciones de tareas diversas, construcción y validación de entornos containerizados, producción de pruebas de finalización y filtrado por capacidad de resolución. A partir de esta pipeline obtenemos 3255 tareas que abarcan operaciones de archivos, gestión de logs, procesamiento de datos, scripting y operaciones de bases de datos. Entrenamos agentes usando PPO estándar con recompensas binarias a nivel de episodio y un bucle de interacción mínimo: sin recuperación de información, coordinación multi-agente o herramientas especializadas. A pesar de esta simplicidad, los modelos entrenados en Endless Terminals muestran mejoras sustanciales: en nuestro conjunto de desarrollo reservado, Llama-3.2-3B mejora del 4.0% al 18.2%, Qwen2.5-7B del 10.7% al 53.3%, y Qwen3-8B-openthinker-sft del 42.6% al 59.0%. Estas mejoras se transfieren a benchmarks curados por humanos: los modelos entrenados en Endless Terminals muestran ganancias sustanciales en benchmarks reservados curados por humanos: en TerminalBench 2.0, Llama-3.2-3B mejora del 0.0% al 2.2%, Qwen2.5-7B del 2.2% al 3.4%, y Qwen3-8B-openthinker-sft del 1.1% al 6.7%, superando en cada caso a enfoques alternativos, incluidos modelos con andamiajes agentivos más complejos. Estos resultados demuestran que el aprendizaje por refuerzo simple tiene éxito cuando los entornos escalan.
Los Modelos de Lenguaje Grandes (LLMs) enfrentan el desafío del "límite de conocimiento" (knowledge cutoff), donde su memoria paramétrica congelada impide la internalización directa de nueva información. Si bien el Fine-Tuning Supervisado (SFT) se utiliza comúnmente para actualizar el conocimiento del modelo, a menudo actualiza contenido factual sin mejorar de manera confiable la capacidad del modelo para utilizar la información recién incorporada en tareas de respuesta a preguntas o toma de decisiones. El Aprendizaje por Refuerzo (RL) es esencial para adquirir habilidades de razonamiento; sin embargo, su alto costo computacional lo hace impracticable para una adaptación en línea eficiente. Observamos empíricamente que las actualizaciones de parámetros inducidas por SFT y RL son casi ortogonales. Basándonos en esta observación, proponemos Parametric Skill Transfer (PaST), un marco que permite la transferencia modular de habilidades para una adaptación del conocimiento eficiente y efectiva. Mediante la extracción de un Vector de Habilidades (Skill Vector) independiente del dominio desde un dominio fuente, podemos inyectar linealmente habilidades de manipulación de conocimiento en un modelo objetivo después de que este haya sido sometido a un SFT ligero con nuevos datos. Los experimentos en benchmarks de incorporación de conocimiento en QA (SQuAD, LooGLE) y de uso de herramientas agentivas (ToolBench) demuestran la efectividad de nuestro método. En SQuAD, PaST supera al baseline state-of-the-art de auto-edición mediante SFT por hasta 9.9 puntos. PaST además escala a QA de contexto largo en LooGLE con una ganancia de precisión absoluta de 8.0 puntos, y mejora las tasas de éxito zero-shot en ToolBench en +10.3 puntos en promedio, con ganancias consistentes across categorías de herramientas, lo que indica una fuerte escalabilidad y transferibilidad cross-domain del Vector de Habilidades.
La segmentación semántica precisa para imágenes histopatológicas es crucial para el análisis cuantitativo de tejidos y la modelización clínica subsiguiente. Los modelos fundacionales de segmentación recientes han mejorado la generalización mediante preentrenamiento a gran escala, pero siguen estando poco alineados con la patología porque tratan la segmentación como una tarea de predicción visual estática. Aquí presentamos VISTA-PATH, un modelo fundacional de segmentación patológica interactivo y consciente de las clases, diseñado para resolver estructuras heterogéneas, incorporar retroalimentación experta y producir segmentaciones a nivel de píxel que sean directamente significativas para la interpretación clínica. VISTA-PATH condiciona conjuntamente la segmentación al contexto visual, descripciones semánticas de tejidos y sugerencias espaciales opcionales proporcionadas por expertos, permitiendo una segmentación multiclase precisa en imágenes patológicas heterogéneas. Para respaldar este paradigma, hemos creado VISTA-PATH Data, un corpus de segmentación patológica a gran escala que comprende más de 1.6 millones de tripletas de imagen-máscara-texto abarcando 9 órganos y 93 clases de tejidos. En extensos puntos de referencia externos y de retención, VISTA-PATH supera consistentemente a los modelos fundacionales de segmentación existentes. Es importante destacar que VISTA-PATH admite un refinamiento dinámico con humanos en el ciclo mediante la propagación de retroalimentación de anotación escasa con cuadros delimitadores a nivel de parche hacia la segmentación de muestras completas. Finalmente, demostramos que la segmentación de alta fidelidad y consciente de las clases producida por VISTA-PATH es un modelo preferido para la patología computacional. Mejora el análisis del microambiente tisular mediante el puntaje de interacción tumoral (TIS) propuesto, que exhibe asociaciones fuertes y significativas con la supervivencia del paciente. En conjunto, estos resultados establecen a VISTA-PATH como un modelo fundacional que eleva la segmentación de imágenes patológicas de una predicción estática a una representación interactiva y clínicamente fundamentada para la patología digital. El código fuente y la demostración pueden encontrarse en https://github.com/zhihuanglab/VISTA-PATH.
Los Modelos de Lenguaje Grandes (LLM) se utilizan hoy en día ampliamente para diversos tipos de tareas de ingeniería de software, principalmente para la generación de código. Investigaciones previas han demostrado cómo una ingeniería de prompts adecuada podría ayudar a los desarrolladores a mejorar sus prompts para la generación de código. Sin embargo, hasta ahora, no existen directrices específicas que orienten a los desarrolladores hacia la escritura de prompts adecuados para la generación de código. En este trabajo, derivamos y evaluamos directrices de optimización de prompts específicas para el desarrollo. Primero, utilizamos un enfoque iterativo y basado en pruebas para refinar automáticamente los prompts de generación de código, y analizamos el resultado de este proceso para identificar elementos de mejora del prompt que conduzcan a la superación de las pruebas. Utilizamos dichos elementos para elicitar 10 directrices para la mejora de prompts, relacionadas con especificar mejor las entradas/salidas (E/S), las precondiciones y postcondiciones, proporcionar ejemplos, varios tipos de detalles o aclarar ambigüedades. Realizamos una evaluación con 50 profesionales, quienes reportan su uso de los patrones de mejora de prompts elicita