Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje por refuerzo se ha convertido en el enfoque central para que los modelos de lenguaje (LM) aprendan de la recompensa o retroalimentación ambiental. En la práctica, la retroalimentación ambiental suele ser escasa y retardada. Aprender de estas señales es un desafío, ya que los LM deben inferir implícitamente cómo los fallos observados deben traducirse en cambios de comportamiento para iteraciones futuras. Introducimos el Aprendizaje por Refuerzo Experiencial (ERL), un paradigma de entrenamiento que incorpora un ciclo explícito de experiencia-reflexión-consolidación dentro del proceso de aprendizaje por refuerzo. Dada una tarea, el modelo genera un intento inicial, recibe retroalimentación ambiental y produce una reflexión que guía un segundo intento refinado, cuyo éxito se refuerza e internaliza en la política base. Este proceso convierte la retroalimentación en una revisión conductual estructurada, mejorando la exploración y estabilizando la optimización, al tiempo que preserva las ganancias durante el despliegue sin coste computacional adicional en inferencia. En entornos de control con recompensas escasas y benchmarks de razonamiento agentico, ERL mejora consistentemente la eficiencia del aprendizaje y el rendimiento final respecto a sólidas líneas base de aprendizaje por refuerzo, logrando mejoras de hasta +81% en entornos complejos multi-etapa y hasta +11% en tareas de razonamiento con uso de herramientas. Estos resultados sugieren que integrar la autorreflexión explícita en el entrenamiento de políticas proporciona un mecanismo práctico para transformar la retroalimentación en una mejora conductual duradera.
Los sistemas de recuperación multimodal existentes sobresalen en la correspondencia semántica, pero asumen implícitamente que la relevancia consulta-imagen puede medirse de forma aislada. Este paradigma pasa por alto las ricas dependencias inherentes a los flujos visuales realistas, donde la información se distribuye a lo largo de secuencias temporales en lugar de confinarse a instantáneas individuales. Para cerrar esta brecha, presentamos DeepImageSearch, un nuevo paradigma agéntico que reformula la recuperación de imágenes como una tarea de exploración autónoma. Los modelos deben planificar y realizar razonamientos multi-paso sobre historiales visuales en bruto para localizar objetivos basándose en pistas contextuales implícitas. Construimos DISBench, un benchmark desafiante basado en datos visuales interconectados. Para abordar el desafío de escalabilidad en la creación de consultas dependientes del contexto, proponemos una canalización colaborativa humano-modelo que emplea modelos de visión y lenguaje para extraer asociaciones espacio-temporales latentes, descargando efectivamente la intensiva labor de descubrimiento de contexto antes de la verificación humana. Además, construimos una línea base robusta utilizando un marco de agente modular equipado con herramientas de grano fino y un sistema de memoria dual para navegación de largo horizonte. Experimentos exhaustivos demuestran que DISBench plantea desafíos significativos a los modelos de vanguardia, destacando la necesidad de incorporar razonamiento agéntico en los sistemas de recuperación de próxima generación.
Presentamos Nanbeige4.1-3B, un modelo lingüístico generalista unificado que logra simultáneamente un fuerte comportamiento agencial, generación de código y razonamiento general con solo 3B de parámetros. Hasta donde sabemos, es el primer modelo lingüístico pequeño (SLM) de código abierto en lograr tal versatilidad en un único modelo. Para mejorar el razonamiento y la alineación de preferencias, combinamos el modelado de recompensas por puntos y por pares, garantizando respuestas de alta calidad y alineadas con los humanos. Para la generación de código, diseñamos recompensas conscientes de la complejidad en el Aprendizaje por Refuerzo, optimizando tanto la corrección como la eficiencia. En la búsqueda profunda, realizamos una síntesis de datos compleja e incorporamos supervisión a nivel de turno durante el entrenamiento. Esto permite interacciones estables con herramientas de largo horizonte, permitiendo a Nanbeige4.1-3B ejecutar de manera confiable hasta 600 turnos de llamadas a herramientas para la resolución de problemas complejos. Resultados experimentales exhaustivos muestran que Nanbeige4.1-3B supera significativamente a modelos previos de escala similar, como Nanbeige4-3B-2511 y Qwen3-4B, llegando incluso a lograr un rendimiento superior en comparación con modelos mucho más grandes, como Qwen3-30B-A3B. Nuestros resultados demuestran que los modelos pequeños pueden lograr simultáneamente una amplia competencia y una fuerte especialización, redefiniendo el potencial de los modelos de 3B de parámetros.
Los modelos de lenguaje grandes están transitando de motores de conocimiento de propósito general a solucionadores de problemas del mundo real, sin embargo, optimizarlos para tareas de búsqueda profunda sigue siendo un desafío. El cuello de botella central reside en la extrema escasez de trayectorias de búsqueda y señales de recompensa de alta calidad, derivada de la dificultad de construir tasks de largo horizonte de manera escalable y del alto costo de las ejecuciones (rollouts) que requieren intensa interacción con llamadas a herramientas externas. Para abordar estos desafíos, proponemos REDSearcher, un marco unificado que codiseña la síntesis de tareas complejas, el entrenamiento intermedio (mid-training) y el entrenamiento posterior (post-training) para la optimización escalable de agentes de búsqueda. Específicamente, REDSearcher introduce las siguientes mejoras: (1) Planteamos la síntesis de tareas como una optimización con doble restricción, donde la dificultad de la tarea se gobierna con precisión mediante la topología de grafos y la dispersión de evidencias, permitiendo la generación escalable de tareas complejas y de alta calidad. (2) Introducimos consultas aumentadas con herramientas para fomentar el uso proactivo de estas en lugar del recuerdo pasivo. (3) Durante el entrenamiento intermedio, reforzamos las capacidades atómicas centrales—conocimiento, planificación y llamada a funciones—reduciendo sustancialmente el costo de recolectar trayectorias de alta calidad para el entrenamiento posterior. (4) Construimos un entorno simulado local que permite una iteración algorítmica rápida y de bajo costo para experimentos de aprendizaje por refuerzo. En diversos benchmarks, tanto para agentes de búsqueda solo de texto como multimodales, nuestro enfoque logra un rendimiento de vanguardia. Para facilitar la investigación futura sobre agentes de búsqueda de largo horizonte, liberaremos 10.000 trayectorias de búsqueda textual complejas de alta calidad, 5.000 trayectorias multimodales y un conjunto de 1.000 consultas para RL de texto, junto con el código y los puntos de control (checkpoints) de los modelos.
Presentamos BitDance, un generador de imágenes autoregresivo (AR) escalable que predice tokens visuales binarios en lugar de índices de codebook. Con latentes binarios de alta entropía, BitDance permite que cada token represente hasta 2^{256} estados, produciendo una representación discreta compacta pero altamente expresiva. El muestreo de un espacio de tokens tan enorme es difícil con la clasificación estándar. Para resolver esto, BitDance utiliza un cabezal de difusión binario: en lugar de predecir un índice con softmax, emplea difusión en espacio continuo para generar los tokens binarios. Además, proponemos la difusión de siguiente-parche (next-patch diffusion), un nuevo método de decodificación que predice múltiples tokens en paralelo con alta precisión, acelerando enormemente la inferencia. En ImageNet 256x256, BitDance logra un FID de 1.24, el mejor entre los modelos AR. Con la difusión de siguiente-parche, BitDance supera a los modelos AR paralelos de última generación que utilizan 1.4B parámetros, mientras emplea 5.4 veces menos parámetros (260M) y logra una aceleración de 8.7x. Para la generación de texto a imagen, BitDance se entrena con tokens multimodales a gran escala y genera imágenes de alta resolución y fotorrealistas de manera eficiente, mostrando un rendimiento sólido y una escalabilidad favorable. Al generar imágenes de 1024x1024, BitDance logra una aceleración de más de 30x en comparación con modelos AR anteriores. Liberamos el código y los modelos para facilitar futuras investigaciones sobre modelos base AR. El código y los modelos están disponibles en: https://github.com/shallowdream204/BitDance.
El aprendizaje de representación de usuarios a escala industrial requiere equilibrar una robusta universalidad con una aguda sensibilidad a la tarea. Sin embargo, los paradigmas existentes producen principalmente *embeddings* estáticos y agnósticos a la tarea que luchan por reconciliar los requisitos divergentes de los escenarios posteriores dentro de espacios vectoriales unificados. Además, los datos heterogéneos multi-fuente introducen ruido inherente y conflictos de modalidad, degradando la representación. Proponemos *Query-as-Anchor*, un marco que cambia el modelado de usuarios de una codificación estática a una síntesis dinámica y consciente de la consulta. Para dotar a los Modelos de Lenguaje Grande (*Large Language Models*, LLMs) de una comprensión profunda del usuario, primero construimos UserU, un conjunto de datos de pre-entrenamiento a escala industrial que alinea secuencias de comportamiento multimodales con semánticas de comprensión del usuario, y nuestra arquitectura Q-Anchor Embedding integra codificadores jerárquicos de coarse-to-fine en LLMs de doble torre mediante una optimización conjunta contrastiva-autoregresiva para la representación de usuarios consciente de la consulta. Para salvar la brecha entre el pre-entrenamiento general y la lógica empresarial especializada, introducimos además el *Cluster-based Soft Prompt Tuning* para imponer estructuras latentes discriminativas, alineando efectivamente la atención del modelo con modalidades específicas del escenario. Para el despliegue, el anclaje de consultas en los extremos de la secuencia permite una inferencia acelerada por *KV-cache* con una latencia incremental insignificante. Las evaluaciones en 10 benchmarks industriales de Alipay muestran un rendimiento SOTA consistente, una fuerte escalabilidad y un despliegue eficiente. Las pruebas A/B online a gran escala en el sistema de producción de Alipay en dos escenarios del mundo real validan aún más su efectividad práctica. Nuestro código está preparado para su lanzamiento público y estará disponible en: https://github.com/JhCircle/Q-Anchor.
Los métodos de Cómputo en Tiempo de Inferencia (ITC) como Best-of-N y Tree-of-Thoughts están diseñados para producir candidatos de salida que sean tanto de alta calidad como diversos, pero su uso de muestreo con alta temperatura a menudo no logra alcanzar una diversidad de salida significativa. Además, los métodos ITC existentes ofrecen un control limitado sobre cómo realizar el razonamiento, lo que a su vez limita su explicabilidad. Presentamos STATe-of-Thoughts (STATe), un método ITC interpretable que busca patrones de razonamiento de alto nivel. STATe reemplaza el muestreo estocástico con intervenciones textuales discretas e interpretables: un controlador selecciona acciones que codifican elecciones de razonamiento de alto nivel, un generador produce pasos de razonamiento condicionados por esas elecciones, y un evaluador puntúa a los candidatos para guiar la búsqueda. Este enfoque estructurado ofrece tres ventajas principales. Primero, las intervenciones textuales guiadas por acciones producen una mayor diversidad de respuestas que el muestreo basado en temperatura. Segundo, en un estudio de caso sobre generación de argumentos, las secuencias de acciones explícitas de STATe capturan características interpretables que son altamente predictivas de la calidad de la salida. Tercero, estimar la asociación entre el rendimiento y las elecciones de acción nos permite identificar regiones prometedoras pero inexploradas del espacio de acciones y dirigir la generación directamente hacia ellas. En conjunto, estos resultados establecen a STATe como un marco práctico para generar texto de alta calidad, diverso e interpretable. Nuestro marco está disponible en https://github.com/zbambergerNLP/state-of-thoughts.
La rápida evolución de los Modelos de Lenguaje a Gran Escala ha catalizado un auge en la producción de ideas científicas, aunque este salto no ha ido acompañado de un avance equivalente en la evaluación de dichas ideas. La naturaleza fundamental de la evaluación científica requiere una base de conocimiento, una deliberación colectiva y una toma de decisiones multicriterio. Sin embargo, los métodos de evaluación de ideas existentes suelen adolecer de horizontes de conocimiento limitados, dimensiones de evaluación simplificadas y el sesgo inherente al enfoque de "LLM como Juez". Para abordar estos problemas, concebimos la evaluación de ideas como un problema de razonamiento con base de conocimiento y desde múltiples perspectivas, e introducimos InnoEval, un marco de evaluación de la innovación profunda diseñado para emular la evaluación de ideas a nivel humano. Aplicamos un motor de búsqueda de conocimiento profundo y heterogéneo que recupera y fundamenta evidencia dinámica de diversas fuentes en línea. Además, logramos un consenso en la revisión mediante un comité de evaluación de la innovación compuesto por revisores con distintos antecedentes académicos, lo que permite una evaluación desacoplada y multidimensional a través de múltiples métricas. Construimos conjuntos de datos exhaustivos derivados de envíos autorizados revisados por pares para evaluar el rendimiento de InnoEval. Los experimentos demuestran que InnoEval supera consistentemente a los métodos de referencia en tareas de evaluación puntual, por pares y por grupos, exhibiendo patrones de juicio y consenso altamente alineados con los de expertos humanos.
La calidad de los datos determina el rendimiento de los modelos fundacionales, sin embargo, faltan marcos de procesamiento sistemáticos. Presentamos Data Darwinism, una taxonomía de diez niveles (L0-L9) que conceptualiza la coevolución datos-modelo: los modelos avanzados producen datos superiores para sistemas de próxima generación. Validamos esto en la literatura científica mediante la construcción de Darwin-Science, un corpus de 900B de tokens (L0-L5). Identificamos una brecha de capacidad de aprendizaje en el texto científico en bruto, que salvamos mediante los niveles L4 (Refinamiento Generativo) y L5 (Finalización Cognitiva) utilizando LLMs de vanguardia para explicitar el razonamiento y la terminología. Para garantizar una atribución rigurosa, preentrenamos desde cero los modelos daVinci-origin-3B/7B, excluyendo contenido científico para crear líneas base libres de contaminación. Tras 600B de tokens de preentrenamiento continuado, Darwin-Science supera a las líneas base en +2.12 (3B) y +2.95 (7B) puntos en más de 20 benchmarks, aumentando a +5.60 y +8.40 puntos en tareas alineadas con el dominio. La progresión sistemática hasta L5 produce una ganancia total de +1.36, lo que confirma que el procesamiento de nivel superior desbloquea el valor latente de los datos. Publicamos el corpus Darwin-Science y los modelos daVinci-origin para permitir un desarrollo coevolutivo y basado en principios.
Los Modelos de Lenguaje Grandes Multimodales Unificados (MLLM) requieren una representación visual que simultáneamente admita una reconstrucción de alta fidelidad, una extracción semántica compleja y una idoneidad generativa. Sin embargo, los tokenizadores visuales existentes generalmente luchan por satisfacer estos objetivos conflictivos dentro de un único marco de trabajo. En este artículo, presentamos UniWeTok, un tokenizador discreto unificado diseñado para cerrar esta brecha utilizando un libro de códigos binario masivo (2^{128}). Para el marco de entrenamiento, introducimos la Distilación Pre-Post y un Prior Generativo-Consciente para mejorar la extracción semántica y el prior generativo de los tokens discretos. En términos de arquitectura del modelo, proponemos una arquitectura híbrida de convolución-atención con la función de activación SigLu. La activación SigLu no solo acota la salida del codificador y estabiliza el proceso de destilación semántica, sino que también aborda eficazmente el conflicto de optimización entre la pérdida de entropía del token y la pérdida de compromiso. Además, proponemos un marco de entrenamiento de tres etapas diseñado para mejorar la adaptabilidad de UniWeTok a varias resoluciones de imagen y escenarios sensibles a la percepción, como aquellos que involucran rostros humanos y contenido textual. En ImageNet, UniWeTok logra un rendimiento de generación de imágenes de vanguardia (FID: UniWeTok 1.38 vs. REPA 1.42) mientras requiere un cómputo de entrenamiento notablemente bajo (Tokens de Entrenamiento: UniWeTok 33B vs. REPA 262B). En el dominio general, UniWeTok demuestra capacidades altamente competitivas en una amplia gama de tareas, incluyendo comprensión multimodal, generación de imágenes (Puntuación DPG: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84) y edición (Puntuación General GEdit: UniWeTok 5.09 vs. OmniGen 5.06). Liberamos el código y los modelos para facilitar la exploración comunitaria del tokenizador unificado y los MLLM.
Evaluar si los Modelos de Lenguaje Grandes Multimodales (MLLMs) razonan genuinamente sobre dinámicas físicas sigue siendo un desafío. La mayoría de los puntos de referencia existentes se basan en protocolos de tipo reconocimiento, como Respuesta a Preguntas Visuales (VQA) y Violación de la Expectativa (VoE), que a menudo pueden responderse sin comprometerse con una hipótesis física explícita y comprobable. Proponemos VisPhyWorld, un marco de trabajo basado en ejecución que evalúa el razonamiento físico requiriendo que los modelos generen código ejecutable para un simulador a partir de observaciones visuales. Al producir código ejecutable, la representación del mundo inferida es directamente inspeccionable, editable y falsable. Esto separa el razonamiento físico del renderizado. Sobre la base de este marco, presentamos VisPhyBench, que comprende 209 escenas de evaluación derivadas de 108 plantillas físicas y un protocolo sistemático que evalúa qué tan bien los modelos reconstruyen la apariencia y reproducen un movimiento físicamente plausible. Nuestra canalización produce vídeos reconstruidos válidos en un 97.7% en el punto de referencia. Los experimentos muestran que, si bien los MLLMs de vanguardia logran una fuerte comprensión semántica de la escena, tienen dificultades para inferir con precisión parámetros físicos y para simular dinámicas físicas consistentes.
Este artículo presenta una base de datos cuántica (Qute) que trata la computación cuántica como una opción de ejecución de primera clase. A diferencia de métodos previos basados en simulación que ejecutan algoritmos cuánticos en máquinas clásicas o adaptan bases de datos existentes para simulación cuántica, Qute en cambio (i) compila una forma extendida de SQL en circuitos cuánticos eficientes en compuertas, (ii) emplea un optimizador híbrido para seleccionar dinámicamente entre planes de ejecución cuánticos y clásicos, (iii) introduce indexación cuántica selectiva, y (iv) diseña un almacenamiento que preserva la fidelidad para mitigar las limitaciones actuales de los cúbits. También presentamos una hoja de ruta de evolución en tres etapas hacia una base de datos nativamente cuántica. Finalmente, al implementar Qute en un procesador cuántico real (origin_wukong), demostramos que supera a una línea base clásica a escala, y publicamos un prototipo de código abierto en https://github.com/weAIDB/Qute.
La configuración de sistemas de agentes basados en LLM implica seleccionar flujos de trabajo, herramientas, presupuestos de tokens y prompts de un amplio espacio de diseño combinatorio, proceso que actualmente se gestiona mediante plantillas fijas de gran tamaño o heurísticas ajustadas manualmente. Esto genera comportamientos frágiles y un uso computacional innecesario, ya que la misma configuración engorrosa suele aplicarse tanto a consultas de entrada fáciles como difíciles. Formulamos la configuración de agentes como un problema de decisión por consulta e introducimos ARC (Agentic Resource & Configuration learner), que aprende una política jerárquica ligera mediante aprendizaje por refuerzo para adaptar dinámicamente estas configuraciones. En múltiples benchmarks que abarcan razonamiento y respuestas a preguntas con herramientas, la política aprendida supera consistentemente a sólidas líneas base diseñadas manualmente y otras, logrando hasta un 25% más de precisión en la tarea mientras reduce los costes de tokens y tiempo de ejecución. Estos resultados demuestran que aprender configuraciones de agente por consulta es una alternativa poderosa a los diseños de "talla única".
Los agentes web requieren trayectorias masivas para generalizar, pero el entrenamiento en entornos reales está limitado por la latencia de red, límites de tasa y riesgos de seguridad. Presentamos la serie WebWorld, el primer simulador de web abierta entrenado a gran escala. Mientras los simuladores existentes se restringen a entornos cerrados con miles de trayectorias, WebWorld aprovecha una canalización de datos escalable para entrenar con más de 1 millón de interacciones en web abierta, soportando razonamiento, datos multi-formato y simulaciones de largo horizonte de más de 30 pasos. Para evaluación intrínseca, presentamos WebWorld-Bench con métricas duales que abarcan nueve dimensiones, donde WebWorld logra un rendimiento de simulación comparable a Gemini-3-Pro. Para evaluación extrínseca, Qwen3-14B entrenado con trayectorias sintetizadas por WebWorld mejora en un +9.2% en WebArena, alcanzando un rendimiento comparable a GPT-4o. WebWorld permite una búsqueda efectiva en tiempo de inferencia, superando a GPT-5 como modelo mundial. Más allá de la simulación web, WebWorld exhibe generalización cruzada a entornos de código, GUI y videojuegos, proporcionando una receta replicable para la construcción de modelos mundiales.
Los modelos de lenguaje multimodal (MLLM), equipados con capacidades de planificación y uso de herramientas cada vez más avanzadas, están evolucionando hacia agentes autónomos capaces de realizar navegación web multimodal y búsqueda profunda en entornos de mundo abierto. Sin embargo, los puntos de referencia existentes para la navegación multimodal siguen siendo limitados en cuanto a la complejidad de las tareas, la accesibilidad de la evidencia y la granularidad de la evaluación, lo que obstaculiza las valoraciones integrales y reproducibles de las capacidades de búsqueda profunda. Para abordar estas limitaciones, presentamos BrowseComp-V^3, un nuevo punto de referencia que consta de 300 preguntas cuidadosamente seleccionadas y desafiantes que abarcan diversos dominios. El punto de referencia hace hincapié en el razonamiento profundo, multinivel y multimodal de múltiples saltos, donde la evidencia crítica se intercala entre modalidades textuales y visuales dentro y entre páginas web. Toda la evidencia de apoyo debe ser estrictamente de acceso público y buscable, garantizando equidad y reproducibilidad. Más allá de la precisión de la respuesta final, incorporamos un mecanismo de evaluación de procesos validado por expertos y orientado a subobjetivos que permite un análisis detallado de los comportamientos de razonamiento intermedios y una caracterización sistemática de los límites de capacidad. Además, proponemos OmniSeeker, un marco unificado de agente de navegación multimodal que integra diversas herramientas de búsqueda web y percepción visual. Experimentos exhaustivos demuestran que incluso los modelos más avanzados logran solo un 36% de precisión en nuestro punto de referencia, revelando cuellos de botella críticos en la integración de información multimodal y la percepción de detalles finos. Nuestros resultados destacan una brecha fundamental entre las capacidades actuales de los modelos y la búsqueda profunta multimodal robusta en entornos del mundo real.
El aprovechamiento de Modelos de Lenguaje Grandes Multimodales (MLLM) se ha vuelto fundamental para avanzar en los Embeddings Multimodales Universales (UME) para abordar diversas tareas multimodales. Estudios recientes demuestran que incorporar razonamiento generativo de Cadena de Pensamiento (CoT) puede mejorar sustancialmente las representaciones específicas de la tarea en comparación con los métodos discriminativos. Sin embargo, las CoT de razonamiento generadas por los métodos de embedding generativos existentes se limitan al análisis textual de las consultas y no son relevantes para la recuperación de los objetivos. Para abordar estas limitaciones, proponemos un marco UME impulsado por el razonamiento que integra Aprendizaje por Refuerzo Guiado por el Embedder (EG-RL) para optimizar el Razonador y producir una Cadena de Pensamiento de Trazabilidad Evidencial (T-CoT). Nuestras contribuciones clave son tres: (1) Diseñamos un marco EG-RL donde el Embedder proporciona supervisión explícita al Razonador, garantizando que los rastros CoT generados estén alineados con las tareas de embedding. (2) Introducimos T-CoT, que extrae pistas multimodales críticas para centrarse en elementos relevantes para la recuperación y proporciona entradas multimodales para el Embedder. (3) Con recursos computacionales limitados, nuestro marco supera al modelo de embedding pionero en los benchmarks MMEB-V2 y UVRB. La integración de evidencia multimodal en el razonamiento estructurado, junto con una alineación orientada a la recuperación, fortalece efectivamente la consistencia semántica multimodal y potencia la capacidad de emparejamiento fino del modelo, así como la generalización a través de escenarios complejos. Nuestro trabajo demuestra que la optimización dirigida del razonamiento puede mejorar significativamente la calidad del embedding multimodal, proporcionando una solución práctica y eficiente para el desarrollo de UME impulsado por el razonamiento.
Los modelos de lenguaje de difusión (dLLM) han surgido recientemente como una alternativa prometedora a los LLM auto-regresivos. Los trabajos más recientes los han extendido aún más a tareas multimodales de comprensión y generación. En este trabajo, proponemos LaViDa-R1, un dLLM multimodal de razonamiento de propósito general. A diferencia de los trabajos existentes que construyen dLLM de razonamiento mediante aprendizaje por refuerzo específico por tarea, LaViDa-R1 incorpora diversas tareas de comprensión y generación multimodal de manera unificada. En concreto, LaViDa-R1 se construye con un novedoso marco unificado de post-entrenamiento que integra de forma fluida el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo multitarea (RL). Emplea varias técnicas novedosas de entrenamiento, como el forzado de respuestas, la búsqueda en árbol y la estimación de verosimilitud complementaria, para mejorar la eficacia y la escalabilidad. Experimentos exhaustivos demuestran el sólido rendimiento de LaViDa-R1 en una amplia gama de tareas multimodales, que incluyen razonamiento matemático visual, fundamentación intensiva en razonamiento y edición de imágenes.
Mantener la consistencia espacial del mundo a lo largo de horizontes prolongados sigue siendo un desafío central para la generación de videos controlables por cámara. Los enfoques existentes basados en memoria a menudo condicionan la generación en escenas 3D reconstruidas globalmente mediante la renderización de videos ancla a partir de la geometría reconstruida en el historial. Sin embargo, reconstruir una escena 3D global a partir de múltiples vistas introduce inevitablemente desalineaciones inter-vistas, ya que los errores de estimación de pose y profundidad provocan que las mismas superficies se reconstruyan en ubicaciones 3D ligeramente diferentes entre vistas. Al fusionarse, estas inconsistencias se acumulan en una geometría ruidosa que contamina las señales de condicionamiento y degrada la calidad de la generación. Presentamos AnchorWeave, un marco de generación de videos aumentado con memoria que reemplaza una única memoria global desalineada con múltiples memorias geométricas locales limpias y aprende a reconciliar sus inconsistencias inter-vistas. Para ello, AnchorWeave realiza una recuperación de memoria local impulsada por cobertura alineada con la trayectoria objetivo e integra las memorias locales seleccionadas mediante un controlador de tejido multi-ancla durante la generación. Experimentos exhaustivos demuestran que AnchorWeave mejora significativamente la consistencia escénica a largo plazo manteniendo una sólida calidad visual, con estudios de ablación y análisis que validan además la efectividad del condicionamiento geométrico local, el control multi-ancla y la recuperación impulsada por cobertura.
La segmentación de imágenes conversacionales materializa conceptos abstractos impulsados por intenciones en máscaras de precisión a nivel de píxel. Trabajos previos sobre el anclaje de imágenes referenciales se centran en consultas categóricas y espaciales (por ejemplo, "la manzana del extremo izquierdo") y pasan por alto el razonamiento funcional y físico (por ejemplo, "¿dónde puedo guardar el cuchillo de forma segura?"). Abordamos esta brecha e introducimos la Segmentación de Imágenes Conversacionales (CIS) y ConverSeg, un punto de referencia que abarca entidades, relaciones espaciales, intención, affordances, funciones, seguridad y razonamiento físico. También presentamos ConverSeg-Net, que fusiona fuertes conocimientos previos de segmentación con la comprensión del lenguaje, y un motor de datos impulsado por IA que genera pares de prompt-máscara sin supervisión humana. Demostramos que los modelos actuales de segmentación guiada por lenguaje son inadecuados para CIS, mientras que ConverSeg-Net entrenado con nuestro motor de datos logra mejoras significativas en ConverSeg y mantiene un rendimiento sólido en los puntos de referencia existentes de segmentación guiada por lenguaje. Página web del proyecto: https://glab-caltech.github.io/converseg/
La comprensión y generación del movimiento humano son cruciales para la visión artificial y la robótica, pero siguen adoleciendo de capacidades de razonamiento y planificación en tiempo de prueba limitadas. Proponemos MoRL, un modelo unificado de movimiento multimodal entrenado con ajuste fino supervisado y aprendizaje por refuerzo con recompensas verificables. Nuestro diseño de recompensas específico por tarea combina alineación semántica y coherencia de razonamiento para la comprensión, con plausibilidad física y consistencia texto-movimiento para la generación, mejorando tanto el razonamiento lógico como el realismo perceptual. Para mejorar aún más la inferencia, introducimos Chain-of-Motion (CoM), un método de razonamiento en tiempo de prueba que permite una planificación y reflexión paso a paso. También construimos dos conjuntos de datos CoT a gran escala, MoUnd-CoT-140K y MoGen-CoT-140K, para alinear secuencias de movimiento con trazas de razonamiento y descripciones de acciones. Los experimentos en HumanML3D y KIT-ML muestran que MoRL logra mejoras significativas respecto a los métodos de referencia más avanzados. Código: https://github.com/AIGeeksGroup/MoRL. Sitio web: https://aigeeksgroup.github.io/MoRL.
Presentamos FireRed-Image-Edit, un transformador de difusión para la edición de imágenes basada en instrucciones que logra un rendimiento de vanguardia mediante la optimización sistemática de la curación de datos, la metodología de entrenamiento y el diseño de evaluación. Construimos un corpus de entrenamiento de 1.600 millones de muestras, que comprende 900 millones de pares de texto a imagen y 700 millones de pares de edición de imágenes de diversas fuentes. Tras una rigurosa limpieza, estratificación, etiquetado automático y filtrado en dos etapas, conservamos más de 100 millones de muestras de alta calidad equilibradas entre generación y edición, garantizando una sólida cobertura semántica y alineación con las instrucciones. Nuestra canalización de entrenamiento multietapa construye progresivamente la capacidad de edición mediante preentrenamiento, ajuste fino supervisado y aprendizaje por refuerzo. Para mejorar la eficiencia de los datos, introducimos un Muestreador por Cubos con Conciencia de Múltiples Condiciones para el procesamiento por lotes de resolución variable y una Alineación de Instrucciones Estocástica con reindexación dinámica de prompts. Para estabilizar la optimización y mejorar la controlabilidad, proponemos una Optimización de Gradiente Asimétrica para DPO, DiffusionNFT con recompensas OCR conscientes del diseño para la edición de texto, y una Pérdida de Consistencia diferenciable para la preservación de la identidad. Además, establecemos REDEdit-Bench, un benchmark integral que abarca 15 categorías de edición, incluyendo tareas de embellecimiento y mejora de bajo nivel recién introducidas. Experimentos exhaustivos en REDEdit-Bench y benchmarks públicos (ImgEdit y GEdit) demuestran un rendimiento competitivo o superior frente a sistemas tanto de código abierto como propietarios. Liberamos el código, los modelos y el conjunto de benchmarks para apoyar la investigación futura.
Los agentes de IA para programación están transformando rápidamente la ingeniería de software al realizar tareas como el desarrollo de funciones, la depuración y las pruebas. A pesar de su creciente impacto, la comunidad investigadora carece de un conjunto de datos integral que capture cómo se utilizan estos agentes en proyectos del mundo real. Para abordar esta brecha, presentamos AIDev, un conjunto de datos a gran escala centrado en las solicitudes de extracción (pull requests) escritas por agentes (Agentic-PRs) en repositorios reales de GitHub. AIDev agrega 932,791 Agentic-PRs producidas por cinco agentes: OpenAI Codex, Devin, GitHub Copilot, Cursor y Claude Code. Estas PRs abarcan 116,211 repositorios y involucran a 72,189 desarrolladores. Además, AIDev incluye un subconjunto seleccionado de 33,596 Agentic-PRs de 2,807 repositorios con más de 100 estrellas, proporcionando información adicional como comentarios, revisiones, commits e incidencias relacionadas. Este conjunto de datos ofrece una base para futuras investigaciones sobre la adopción de la IA, la productividad de los desarrolladores y la colaboración humano-IA en la nueva era de la ingeniería de software. > Agente de IA, IA Agéntica, Agente de Programación, Programación Agéntica, Ingeniería de Software Agéntica, Ingeniería Agéntica
Presentamos LM-Lexicon, un enfoque innovador de modelado de definiciones que incorpora agrupación de datos, aprendizaje de expertos semánticos y fusión de modelos mediante una arquitectura dispersa de mezcla de expertos. Al descomponer la tarea de modelado de definiciones en dominios semánticos especializados, donde se entrenan pequeños modelos de lenguaje como expertos de dominio, LM-Lexicon logra mejoras sustanciales (+7% en puntuación BLEU comparado con el modelo estado del arte previo) sobre los métodos existentes en cinco puntos de referencia ampliamente utilizados. Empíricamente, demostramos que 1) la estrategia de agrupación permite una especialización experta de grano fino con una mejora de casi el 10% en la calidad de las definiciones; 2) el mecanismo de enrutamiento a nivel de dominio consciente de la semántica alcanza una mayor eficacia experta (+1%) que el enrutamiento convencional a nivel de token; y 3) se pueden obtener ganancias de rendimiento adicionales mediante el escalado de cómputo en tiempo de prueba y de expertos semánticos. Nuestro trabajo avanza el modelado de definiciones mientras proporciona información valiosa para el desarrollo de modelos de lenguaje eficientes para aplicaciones semánticamente intensivas.
La sonificación —la asignación de datos a audio no vocal— ofrece un canal poco explorado para representar sistemas dinámicos complejos. Tomamos el Fenómeno de El Niño-Oscilación del Sur (ENOS), un ejemplo canónico de caos climático de baja dimensión, como caso de prueba para una sonificación culturalmente situada evaluada mediante diagnósticos de sistemas complejos. Utilizando la sonificación por mapeo de parámetros del índice de anomalía de la temperatura superficial del mar de la región Niño 3.4 (1870-2024), codificamos la variabilidad del ENOS en dos sistemas pentatónicos tradicionales del gamelán javanés (pelog y slendro) a través de cuatro estrategias de composición, y luego analizamos el audio resultante como trayectorias en un espacio de fase acústico bidimensional. Los diagnósticos basados en recurrencia, la geometría del casco convexo y el análisis de acoplamiento revelan que el proceso de sonificación preserva firmas dinámicas clave: los modos alternantes producen las tasas de recurrencia de trayectoria más altas, reflejando la cuasiperiodicidad del ENOS; los modos polifónicos en capas exploran las regiones más amplias del espacio de fase; y las dos familias de escalas inducen regímenes de acoplamiento cualitativamente distintos entre el brillo espectral y la energía — predominantemente en antifase en pelog, pero casi independientes en slendro. El análisis de trayectorias en el espacio de fase proporciona un marco geométrico riguroso para comparar diseños de sonificación dentro de un contexto de sistemas complejos. La validación perceptual sigue siendo necesaria; contribuimos con la metodología de sistemas dinámicos para evaluar dichos mapeos.
La edición generativa de vídeo de alta fidelidad ha experimentado mejoras significativas en calidad gracias al aprovechamiento de modelos base de vídeo preentrenados. Sin embargo, su coste computacional es un cuello de botella importante, ya que a menudo están diseñados para procesar de forma ineficiente el contexto completo del vídeo, independientemente del tamaño de la máscara de inpaintado, incluso para ediciones localizadas y dispersas. En este artículo, presentamos EditCtrl, un marco de control eficiente para el inpaintado de vídeo que concentra el cómputo solo donde se necesita. Nuestro enfoque incluye un novedoso módulo de contexto local de vídeo que opera únicamente en los tokens enmascarados, resultando en un coste computacional proporcional al tamaño de la edición. Esta generación de prioridad local es luego guiada por un incrustador de contexto global temporal ligero que garantiza la coherencia contextual en todo el vídeo con una sobrecarga mínima. EditCtrl no solo es 10 veces más eficiente computacionalmente que los métodos de edición generativa state-of-the-art, sino que incluso mejora la calidad de la edición en comparación con los métodos diseñados con atención completa. Finalmente, demostramos cómo EditCtrl desbloquea nuevas capacidades, incluyendo la edición multi-región con prompts de texto y la propagación de contenido autoregresiva.
Si bien la decodificación de planificación y relleno en Modelos de Difusión Enmascarada (MDM) muestra potencial para el razonamiento matemático y de código, su rendimiento sigue siendo altamente sensible al orden de relleno de los espacios, lo que a menudo genera una variabilidad sustancial en la salida. Presentamos McDiffuSE, un marco que formula la selección de espacios como un proceso de toma de decisiones y optimiza los órdenes de relleno mediante Búsqueda en Árbol Monte Carlo (MCTS). McDiffuSE utiliza simulaciones de anticipación para evaluar completamientos parciales antes de comprometerse con ellos, explorando sistemáticamente el espacio combinatorio de órdenes de generación. Los experimentos muestran una mejora promedio del 3.2% sobre los modelos autoregresivos base y del 8.0% sobre el método base de planificación y relleno, con ganancias notables del 19.5% en MBPP y del 4.9% en MATH500. Nuestro análisis revela que, si bien McDiffuSE sigue predominantemente un orden secuencial, la incorporación de generación no secuencial es esencial para maximizar el rendimiento. Observamos que se necesitan constantes de exploración más grandes, en lugar de un aumento de simulaciones, para superar los sesgos de confianza del modelo y descubrir órdenes efectivos. Estos hallazgos establecen la planificación basada en MCTS como un enfoque efectivo para mejorar la calidad de la generación en los MDM.
La secuenciación de ARN de células individuales (scRNA-seq) permite la caracterización a escala de atlas de tejidos complejos, revelando linajes raros y estados transitorios. Sin embargo, la asignación de identidades celulares biológicamente válidas sigue siendo un cuello de botella, ya que los marcadores son dependientes del tejido y del estado, y los estados novedosos carecen de referencias. Presentamos CellMaster, un agente de IA que imita la práctica experta para la anotación de tipos celulares de cero disparos. A diferencia de las herramientas automatizadas existentes, CellMaster aprovecha el conocimiento codificado en modelos de lenguaje grandes (por ejemplo, GPT-4o) para realizar anotaciones sobre la marcha con razonamientos interpretables, sin necesidad de preentrenamiento o bases de datos de marcadores fijas. En 9 conjuntos de datos que abarcan 8 tejidos, CellMaster mejoró la precisión en un 7.1% respecto a las mejores líneas de base (incluyendo CellTypist y scTab) en modo automático. Con un refinamiento humano en el bucle, esta ventaja aumentó al 18.6%, con una ganancia del 22.1% en poblaciones de subtipos. El sistema demuestra una fuerza particular en estados celulares raros y novedosos donde las líneas de base a menudo fallan. El código fuente y la aplicación web están disponibles en https://github.com/AnonymousGym/CellMaster.
En este artículo de recursos, presentamos DHPLT, una colección abierta de corpus diacrónicos en 41 idiomas diversos. DHPLT se basa en los conjuntos de datos HPLT obtenidos mediante rastreo web; utilizamos las marcas de tiempo del rastreo como señal aproximada de la fecha de creación del documento. La colección abarca tres períodos temporales: 2011-2015, 2020-2021 y 2024-actualidad (un millón de documentos por período para cada idioma). Adicionalmente, proporcionamos incrustaciones léxicas (tipos y tokens) y sustituciones léxicas precomputadas para nuestras palabras objetivo seleccionadas, dejando al mismo tiempo abierta la posibilidad de que otros investigadores propongan sus propias palabras objetivo utilizando los mismos conjuntos de datos. DHPLT tiene como objetivo suplir la actual carencia de corpus diacrónicos multilingües para el modelado del cambio semántico (más allá de una docena de idiomas de altos recursos). Abre el camino para una variedad de nuevas configuraciones experimentales en este campo. Todos los recursos descritos en este artículo están disponibles en https://data.hplt-project.org/three/diachronic/, organizados por idioma.
El análisis de la acústica de salas desempeña un papel central en el diseño arquitectónico, la ingeniería de audio, la evaluación de la inteligibilidad del habla y la investigación auditiva. A pesar de la disponibilidad de métricas estandarizadas como el tiempo de reverberación, la claridad y el índice de transmisión del habla, las herramientas accesibles que combinan un procesamiento de señales riguroso con una visualización intuitiva siguen siendo escasas. Este artículo presenta AcoustiVision Pro, una plataforma web de código abierto para el análisis integral de la respuesta al impulso de sala (RIR). El sistema calcula doce parámetros acústicos distintos a partir de RIR cargadas o obtenidas de conjuntos de datos, proporciona visualizaciones interactivas en 3D de las reflexiones tempranas, genera características de decaimiento dependientes de la frecuencia mediante gráficos de cascada y verifica el cumplimiento de normas internacionales como ANSI S12.60 e ISO 3382. Presentamos los conjuntos de datos RIRMega y RIRMega Speech alojados en Hugging Face, que contienen miles de respuestas al impulso de sala simuladas con metadatos completos. La plataforma soporta la auralización en tiempo real mediante convolución basada en FFT, exporta informes detallados en PDF aptos para documentación de ingeniería y proporciona exportación de datos en CSV para análisis posteriores. Describimos los fundamentos matemáticos que subyacen a cada métrica acústica, detallamos la arquitectura del sistema y presentamos estudios de caso preliminares que demuestran la utilidad de la plataforma en diversos ámbitos de aplicación, incluyendo la acústica de aulas, el diseño de instalaciones sanitarias y la evaluación de estudios de grabación.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) se ha convertido en un pilar fundamental de las aplicaciones intensivas en conocimiento, incluyendo chatbots empresariales, asistentes sanitarios y la gestión de memoria de agentes. Sin embargo, estudios recientes demuestran que los ataques de extracción de conocimiento pueden recuperar contenido sensible de la base de conocimientos mediante consultas maliciosamente diseñadas, lo que plantea serias preocupaciones sobre el robo de propiedad intelectual y la filtración de privacidad. Si bien trabajos previos han explorado técnicas individuales de ataque y defensa, el panorama de investigación sigue fragmentado, abarcando incrustaciones de recuperación heterogéneas, modelos de generación diversos y evaluaciones basadas en métricas no estandarizadas y conjuntos de datos inconsistentes. Para abordar esta brecha, presentamos el primer benchmark sistemático para ataques de extracción de conocimiento en sistemas RAG. Nuestro benchmark cubre un amplio espectro de estrategias de ataque y defensa, modelos representativos de incrustaciones de recuperación, y generadores tanto de código abierto como cerrado, todos evaluados bajo un marco experimental unificado con protocolos estandarizados en múltiples conjuntos de datos. Al consolidar el panorama experimental y permitir una evaluación reproducible y comparable, este benchmark proporciona información práctica y una base sólida para desarrollar sistemas RAG que preserven la privacidad frente a las amenazas emergentes de extracción de conocimiento. Nuestro código está disponible aquí.
Los modelos de lenguaje grande (LLM) utilizados como jueces se han empleado con frecuencia junto con métricas tradicionales basadas en algoritmos para tareas como la summarización, ya que capturan mejor la información semántica, poseen mejor capacidad de razonamiento y son más robustos frente a la paráfrasis. Sin embargo, los LLM jueces presentan sesgos, entre otros, por la longitud y el orden, y son vulnerables a diversos *prompts* de entrada adversarios. Si bien estudios recientes han investigado estos sesgos, pocos los han analizado a un nivel más granular en relación con una métrica de superposición bien definida. En este trabajo, proporcionamos un análisis del sesgo de los LLM jueces en función de la superposición con respuestas escritas por humanos en el dominio de la summarización. Evaluamos 9 LLM recientes con recuentos de parámetros que van desde 1 mil millones hasta 12 mil millones, incluyendo variantes de Gemma 3 y LLaMA 3. Descubrimos que los LLM jueces prefieren progresivamente más los resúmenes generados por otros LLM que los escritos por humanos a medida que las similitudes (medidas por ROUGE y BLEU) entre los resúmenes evaluados disminuyen. Este patrón se extiende a todos los modelos probados excepto uno, y existe independientemente de los sesgos de posición propios de los modelos. Adicionalmente, encontramos que los modelos tienen dificultades para evaluar incluso resúmenes con superposiciones limitadas, lo que sugiere que el uso de LLM-como-juez en el dominio de la summarización debería apoyarse en técnicas que van más allá de una simple comparación.
A medida que avanzan las capacidades de los grandes modelos de lenguaje, también lo hace su potencial de uso indebido. Mientras que los modelos de código cerrado suelen depender de defensas externas, los modelos de pesos abiertos deben depender principalmente de salvaguardas internas para mitigar comportamientos dañinos. Investigaciones previas de equipos rojos se han centrado en gran medida en la manipulación basada en entradas y a nivel de parámetros. Sin embargo, los modelos de pesos abiertos también admiten de forma nativa el "prellenado" (prefilling), lo que permite a un atacante predefinir los tokens de respuesta inicial antes de que comience la generación. A pesar de su potencial, este vector de ataque ha recibido poca atención sistemática. Presentamos el mayor estudio empírico hasta la fecha sobre ataques de prellenado, evaluando más de 20 estrategias, tanto existentes como novedosas, en múltiples familias de modelos y en los modelos de pesos abiertos más avanzados. Nuestros resultados muestran que los ataques de prellenado son consistentemente efectivos contra todos los principales modelos de pesos abiertos contemporáneos, revelando una vulnerabilidad crítica y previamente poco explorada con implicaciones significativas para su despliegue. Si bien ciertos modelos de razonamiento a gran escala muestran cierta robustez contra estrategias genéricas de prellenado, siguen siendo vulnerables a estrategias específicas y personalizadas para cada modelo. Nuestros hallazgos subrayan la necesidad urgente de que los desarrolladores de modelos prioricen las defensas contra los ataques de prellenado en los LLM de pesos abiertos.
Los agentes potenciados por LLM están comenzando a automatizar las tareas de los usuarios en la web abierta, a menudo con acceso a recursos del usuario como correos electrónicos y calendarios. A diferencia de los LLM estándar que responden preguntas en un entorno controlado de ChatBot, los agentes web actúan "en estado salvaje", interactuando con terceros y dejando tras de sí un rastro de acciones. Por lo tanto, nos planteamos la pregunta: ¿cómo manejan los agentes web los recursos del usuario cuando realizan tareas en su nombre a través de sitios web en vivo? En este artículo, formalizamos la Divulgación Excesiva Agéntica Natural (Natural Agentic Oversharing) – la revelación no intencionada de información del usuario irrelevante para la tarea a través de un rastro de acciones del agente en la web. Introducimos SPILLage, un marco que caracteriza la divulgación excesiva a lo largo de dos dimensiones: canal (contenido vs. comportamiento) y directitud (explícita vs. implícita). Esta taxonomía revela un punto ciego crítico: mientras que trabajos previos se centran en la filtración de texto, los agentes web también divulgan en exceso de manera conductual a través de clics, desplazamientos y patrones de navegación que pueden ser monitoreados. Evaluamos 180 tareas en sitios de comercio electrónico en vivo con anotaciones de verdad fundamental que separan los atributos relevantes para la tarea de los irrelevantes. A través de 1.080 ejecuciones que abarcan dos marcos agenticos y tres LLMs base, demostramos que la divulgación excesiva es generalizada, y la divulgación excesiva conductual domina a la de contenido por un factor de 5x. Este efecto persiste – e incluso puede empeorar – bajo mitigación a nivel de prompt. Sin embargo, eliminar la información irrelevante para la tarea antes de la ejecución mejora el éxito de la tarea hasta en un 17.9%, lo que demuestra que reducir la divulgación excesiva mejora el éxito de la tarea. Nuestros hallazgos subrayan que proteger la privacidad en los agentes web es un desafío fundamental, que requiere una visión más amplia de la "salida" que tenga en cuenta lo que los agentes hacen en la web, no solo lo que escriben. Nuestros conjuntos de datos y código están disponibles en https://github.com/jrohsc/SPILLage.
El aprendizaje por refuerzo (RL) se ha consolidado como un paradigma dominante para la conducción autónoma (AD) de extremo a extremo. Sin embargo, el RL adolece de ineficiencia muestral y falta de interpretabilidad semántica en escenarios complejos. Los Modelos Fundacionales, particularmente los Modelos de Visión y Lenguaje (VLM), pueden mitigar esto al ofrecer conocimiento rico y consciente del contexto, aunque su alta latencia de inferencia dificulta su despliegue en bucles de entrenamiento de RL de alta frecuencia. Para salvar esta brecha, presentamos Found-RL, una plataforma diseñada para mejorar eficientemente el RL para AD utilizando modelos fundacionales. Una innovación central es el marco de inferencia por lotes asíncrona, que desacopla el costoso razonamiento de los VLM del bucle de simulación, resolviendo efectivamente los cuellos de botella de latencia para apoyar el aprendizaje en tiempo real. Introducimos diversos mecanismos de supervisión: la Regularización de Margen de Valor (VMR) y la Guía de Acciones Ponderada por Ventaja (AWAG), para destilar eficazmente las sugerencias de acción similares a las de un experto VLM en la política de RL. Adicionalmente, adoptamos CLIP de alto rendimiento para la configuración de recompensas densas. Abordamos la ceguera dinámica de CLIP mediante la Alineación de Acciones Condicional por Contraste, que condiciona los prompts a la velocidad/comando discretizados y produce una bonificación normalizada basada en márgenes a partir de una puntuación de anclaje de acción específica del contexto. Found-RL proporciona un pipeline integral para la integración de VLM afinados y demuestra que un modelo de RL ligero puede alcanzar un rendimiento cercano al de los VLM con miles de millones de parámetros, manteniendo una inferencia en tiempo real (aprox. 500 FPS). El código, los datos y los modelos estarán disponibles públicamente en https://github.com/ys-qu/found-rl.
El ajuste fino mediante instrucciones de modelos de lenguaje grandes (LLM) a menudo implica seleccionar un subconjunto de datos de entrenamiento con instrucciones de un gran grupo de candidatos, utilizando un pequeño conjunto de consultas de la tarea objetivo. A pesar del creciente interés, la literatura sobre la selección dirigida de instrucciones sigue estando fragmentada y es opaca: los métodos varían ampliamente en los presupuestos de selección, a menudo omiten líneas base de cero disparos y con frecuencia entrelazan las contribuciones de componentes clave. Como resultado, los profesionales carecen de orientación práctica sobre cómo seleccionar instrucciones para sus tareas objetivo. En este trabajo, nuestro objetivo es aportar claridad a este panorama desentrañando y analizando sistemáticamente los dos ingredientes principales: la representación de los datos y los algoritmos de selección. Nuestro marco permite comparaciones controladas entre modelos, tareas y presupuestos. Encontramos que solo las representaciones de datos basadas en gradientes eligen subconjuntos cuya similitud con la consulta predice consistentemente el rendimiento en diferentes conjuntos de datos y modelos. Si bien ningún método individual domina, las representaciones basadas en gradientes combinadas con un algoritmo de selección codicioso por turnos tienden a desempeñarse mejor en promedio con presupuestos bajos, pero estos beneficios disminuyen con presupuestos más grandes. Finalmente, unificamos varios algoritmos de selección existentes como formas de minimización aproximada de la distancia entre el subconjunto seleccionado y el conjunto de consultas, y respaldamos esta perspectiva con nuevos límites de generalización. En términos más amplios, nuestros hallazgos proporcionan información crítica y una base para una selección de datos más fundamentada en el ajuste fino de LLM. El código está disponible en https://github.com/dcml-lab/targeted-instruction-selection.
Los agentes de IA generativa equiparan la comprensión con la resolución de consultas explícitas, una suposición que confina la interacción a lo que los usuarios pueden articular. Esta suposición se desmorona cuando los usuarios mismos carecen de conciencia sobre lo que falta, es riesgoso o vale la pena considerar. En tales condiciones, la proactividad no es meramente una mejora de eficiencia, sino una necesidad epistémica. Nos referimos a esta condición como **incompletitud epistémica**: donde el progreso depende de interactuar con lo desconocido desconocido para una colaboración efectiva. Los enfoques existentes para la proactividad siguen siendo estrechamente anticipatorios, extrapolando del comportamiento pasado y presumiendo que los objetivos ya están bien definidos, fallando así en apoyar significativamente a los usuarios. Sin embargo, sacar a la luz posibilidades más allá de la conciencia actual de un usuario no es inherentemente beneficioso. Las intervenciones proactivas sin restricciones pueden desviar la atención, abrumar a los usuarios o introducir daños. Por lo tanto, los agentes proactivos requieren una **base conductual**: restricciones fundamentadas sobre cuándo, cómo y hasta qué punto un agente debe intervenir. Avanzamos la postura de que la proactividad generativa debe estar fundamentada tanto epistémica como conductualmente. Basándonos en la filosofía de la ignorancia y la investigación sobre el comportamiento proactivo, argumentamos que estas teorías ofrecen una guía crítica para diseñar agentes que puedan participar de manera responsable y fomentar colaboraciones significativas.