Artículos de investigación en IA seleccionados diariamente con traducciones
El auge de los agentes de IA introduce complejos desafíos de seguridad y protección derivados del uso autónomo de herramientas y las interacciones con el entorno. Los modelos de salvaguardas actuales carecen de conciencia del riesgo agencial y de transparencia en el diagnóstico de riesgos. Para introducir una salvaguardia agencial que cubra comportamientos riesgosos complejos y numerosos, primero proponemos una taxonomía unificada tridimensional que categoriza ortogonalmente los riesgos agénicos por su fuente (dónde), modo de fallo (cómo) y consecuencia (qué). Guiados por esta taxonomía estructurada y jerárquica, presentamos un nuevo benchmark de seguridad agencial de grano fino (ATBench) y un marco de Salvaguardia Diagnóstica para la seguridad y protección de agentes (AgentDoG). AgentDoG proporciona una monitorización contextual y detallada a lo largo de las trayectorias de los agentes. Más crucialmente, AgentDoG puede diagnosticar las causas fundamentales de acciones inseguras y de acciones aparentemente seguras pero irrazonables, ofreciendo trazabilidad y transparencia más allá de las etiquetas binarias para facilitar una alineación efectiva de los agentes. Las variantes de AgentDoG están disponibles en tres tamaños (4B, 7B y 8B de parámetros) en las familias de modelos Qwen y Llama. Resultados experimentales exhaustivos demuestran que AgentDoG logra un rendimiento de vanguardia en la moderación de seguridad agencial en escenarios interactivos diversos y complejos. Todos los modelos y conjuntos de datos se han liberado abiertamente.
Cuando los seres humanos se enfrentan a problemas que superan sus capacidades inmediatas, recurren a herramientas, lo que ofrece un paradigma prometedor para mejorar el razonamiento visual en los modelos de lenguaje multimodal de gran escala (MLLM, por sus siglas en inglés). Por lo tanto, un razonamiento efectivo depende de saber qué herramientas utilizar, cuándo invocarlas y cómo componerlas a lo largo de múltiples pasos, incluso cuando se enfrentan a herramientas o tareas nuevas. Presentamos AdaReasoner, una familia de modelos multimodales que aprenden el uso de herramientas como una habilidad de razonamiento general, en lugar de como un comportamiento específico de una herramienta o supervisado explícitamente. AdaReasoner se habilita mediante (i) un pipeline escalable de curación de datos que expone a los modelos a interacciones con herramientas de múltiples pasos y largo horizonte; (ii) Tool-GRPO, un algoritmo de aprendizaje por refuerzo que optimiza la selección y secuenciación de herramientas basándose en el éxito de la tarea final; y (iii) un mecanismo de aprendizaje adaptativo que regula dinámicamente el uso de herramientas. En conjunto, estos componentes permiten a los modelos inferir la utilidad de las herramientas a partir del contexto de la tarea y los resultados intermedios, posibilitando la coordinación de múltiples herramientas y la generalización a herramientas no vistas. Empíricamente, AdaReasoner exhibe comportamientos sólidos de adaptación y generalización de herramientas: adopta autónomamente herramientas beneficiosas, suprime las irrelevantes y ajusta la frecuencia de uso de herramientas en función de las demandas de la tarea, a pesar de no haber sido entrenado explícitamente para ello. Estas capacidades se traducen en un rendimiento de vanguardia en benchmarks desafiantes, mejorando el modelo base de 7B en un +24.9 % en promedio y superando a sistemas propietarios potentes como GPT-5 en múltiples tareas, incluyendo VSP y Jigsaw.
Con un gran potencial en la manipulación robótica, se espera que un modelo base de Visión-Lenguaje-Acción (VLA) capaz generalice fielmente entre tareas y plataformas, garantizando al mismo tiempo la eficiencia de costes (por ejemplo, datos y horas de GPU necesarias para la adaptación). Con este fin, desarrollamos LingBot-VLA con aproximadamente 20.000 horas de datos del mundo real procedentes de 9 configuraciones populares de robots bimanuales. Mediante una evaluación sistemática en 3 plataformas robóticas, cada una completando 100 tareas con 130 episodios post-entrenamiento por tarea, nuestro modelo demuestra una clara superioridad sobre los competidores, mostrando su sólido rendimiento y amplia capacidad de generalización. También hemos creado una base de código eficiente, que ofrece un rendimiento de 261 muestras por segundo por GPU con una configuración de entrenamiento de 8 GPU, lo que representa una aceleración de 1.5 a 2.8 veces (dependiendo del modelo base VLM utilizado) respecto a las bases de código existentes orientadas a VLA. Estas características garantizan que nuestro modelo sea adecuado para su implementación en entornos reales. Para impulsar el campo del aprendizaje robótico, proporcionamos acceso abierto al código, al modelo base y a los datos de evaluación, con el objetivo de permitir tareas más desafiantes y promover estándares de evaluación sólidos.
Los seres humanos construyen modelos internos del mundo y razonan manipulando los conceptos dentro de estos modelos. Los avances recientes en IA, particularmente el razonamiento de cadena de pensamiento (CoT), aproximan tales capacidades cognitivas humanas, donde se cree que los modelos del mundo están integrados dentro de los grandes modelos de lenguaje. Los sistemas actuales han logrado un rendimiento de nivel experto en dominios formales y abstractos como las matemáticas y la programación, dependiendo predominantemente del razonamiento verbal. Sin embargo, todavía están muy por detrás de los humanos en dominios como la inteligencia física y espacial, que requieren representaciones y conocimiento previo más ricos. La aparición de modelos multimodales unificados (UMMs) capaces de generar tanto contenido verbal como visual ha despertado interés en un razonamiento más similar al humano basado en vías multimodales complementarias, aunque sus beneficios siguen sin estar claros. Desde una perspectiva de modelos del mundo, este artículo presenta el primer estudio fundamentado sobre cuándo y cómo la generación visual beneficia el razonamiento. Nuestra posición clave es la hipótesis de la superioridad visual: para ciertas tareas—particularmente aquellas basadas en el mundo físico—la generación visual sirve más naturalmente como modelo del mundo, mientras que los modelos del mundo puramente verbales encuentran cuellos de botella derivados de limitaciones representacionales o conocimiento previo insuficiente. Teóricamente, formalizamos el modelado interno del mundo como un componente central del razonamiento CoT y analizamos las distinciones entre diferentes formas de modelos del mundo. Empíricamente, identificamos tareas que requieren un razonamiento CoT visual-verbal entrelazado, construyendo una nueva suite de evaluación, VisWorld-Eval. Experimentos controlados en un UMM de vanguardia muestran que el CoT entrelazado supera significativamente al CoT puramente verbal en tareas que favorecen el modelado visual del mundo, pero no ofrece una ventaja clara en otros casos. En conjunto, este trabajo clarifica el potencial del modelado multimodal del mundo para una IA multimodal más poderosa y similar a la humana.
Los clips audiovisuales de Internet transmiten significado a través de sonidos y movimientos que varían en el tiempo, lo que va más allá de lo que el texto por sí solo puede representar. Para examinar si los modelos de IA pueden comprender tales señales en contextos culturales humanos, presentamos AVMeme Exam, un punto de referencia curado por humanos que contiene más de mil sonidos y videos icónicos de Internet que abarcan discursos, canciones, música y efectos de sonido. Cada meme se empareja con una pregunta y respuesta única que evalúa niveles de comprensión, desde el contenido superficial hasta el contexto y la emoción, pasando por el uso y el conocimiento del mundo, junto con metadatos como el año original, la transcripción, el resumen y la sensibilidad. Evaluamos sistemáticamente los modelos de lenguaje grandes multimodales (MLLMs) más avanzados junto con participantes humanos utilizando este punto de referencia. Nuestros resultados revelan una limitación consistente: los modelos actuales tienen un rendimiento deficiente en música sin texto y efectos de sonido, y les cuesta pensar en contexto y en cultura en comparación con el contenido superficial. Estos hallazgos destacan una brecha clave en la inteligencia multimodal alineada con los humanos y exigen modelos que puedan percibir más allá de la superficie de lo que escuchan y ven, de manera contextual y cultural. Página del proyecto: avmemeexam.github.io/public
A pesar de los avances significativos que representan los Modelos de Visión y Lenguaje (VLMs), las arquitecturas actuales a menudo presentan limitaciones para retener información visual detallada, lo que conduce a una comprensión multimodal de grano grueso. Atribuimos esta deficiencia a un paradigma de entrenamiento subóptimo inherente a los VLMs predominantes, que exhibe un sesgo de optimización dominado por el texto al conceptualizar las señales visuales meramente como entradas condicionales pasivas en lugar de objetivos de supervisión. Para mitigar esto, presentamos Youtu-VL, un marco que aprovecha el paradigma de Supervisión Autoregresiva Unificada de Visión y Lenguaje (VLUAS), que cambia fundamentalmente el objetivo de optimización de "la visión como entrada" a "la visión como objetivo". Al integrar tokens visuales directamente en el flujo de predicción, Youtu-VL aplica una supervisión autoregresiva unificada tanto a los detalles visuales como al contenido lingüístico. Además, extendemos este paradigma para abarcar tareas centradas en la visión, permitiendo que un VLM estándar realice dichas tareas sin adiciones específicas. Evaluaciones empíricas exhaustivas demuestran que Youtu-VL logra un rendimiento competitivo tanto en tareas multimodales generales como en tareas centradas en la visión, estableciendo una base sólida para el desarrollo de agentes visuales generalistas integrales.
Los Modelos de Lenguaje Grandes (LLMs) impulsan la simulación de agentes generativos (por ejemplo, AI Town) para crear un "mundo dinámico", lo que tiene un valor inmenso tanto en el entretenimiento como en la investigación. Sin embargo, para los no expertos, especialmente aquellos sin habilidades de programación, resulta difícil personalizar un entorno visualizable por sí mismos. En este artículo, presentamos World Craft, un marco de creación de mundos agentico para crear un AI Town ejecutable y visualizable mediante descripciones textuales del usuario. Consta de dos módulos principales: World Scaffold y World Guild. World Scaffold es una estandarización estructurada y concisa para desarrollar escenas de juego interactivas, que sirve como un andamiaje eficiente para que los LLMs personalicen un entorno ejecutable similar a AI Town. World Guild es un marco multiagente que analiza progresivamente las intenciones de los usuarios a partir de descripciones aproximadas y sintetiza los contenidos estructurados requeridos (por ejemplo, el diseño del entorno y los recursos) para World Scaffold. Además, construimos un conjunto de datos de corrección de errores de alta calidad mediante ingeniería inversa para mejorar el conocimiento espacial y aumentar la estabilidad y controlabilidad de la generación de diseños, al tiempo que reportamos métricas de evaluación multidimensionales para un análisis posterior. Experimentos exhaustivos demuestran que nuestro marco supera significativamente a los agentes de código comerciales existentes (Cursor y Antigravity) y a los LLMs (Qwen3 y Gemini-3-Pro) en la construcción de escenas y la transmisión de la intención narrativa, proporcionando una solución escalable para la democratización de la creación de entornos.
La rápida expansión de los Modelos de Lenguaje a Gran Escala (LLM) de contexto largo ha reavivado el debate sobre si la Generación Aumentada por Recuperación (RAG) sigue siendo necesaria. Sin embargo, la evidencia empírica revela limitaciones persistentes en la inferencia de contexto largo, incluyendo el fenómeno de "perdido-en-el-medio", el alto costo computacional y la pobre escalabilidad para el razonamiento multi-documento. Por el contrario, los sistemas RAG tradicionales, aunque eficientes, están limitados por una recuperación plana a nivel de fragmentos que introduce ruido semántico y no logra apoyar la síntesis estructurada cruzada entre documentos. Presentamos FABLE, un marco de recuperación mejorado por LLM de doble vía adaptativo basado en bosques, que integra LLMs tanto en la organización como en la recuperación del conocimiento. FABLE construye índices jerárquicos tipo bosque mejorados por LLM con estructuras semánticas multi-granularidad, luego emplea una estrategia de doble vía que combina un recorrido jerárquico guiado por LLM con una propagación consciente de la estructura para la adquisición de evidencia de grano fino, con un control explícito del presupuesto para compensaciones adaptativas de eficiencia. Extensos experimentos demuestran que FABLE supera consistentemente a los métodos RAG de vanguardia (SOTA) y logra una precisión comparable a la inferencia de LLM de contexto completo con una reducción de hasta el 94% en tokens, mostrando que los LLM de contexto largo amplifican, más que reemplazan por completo, la necesidad de una recuperación estructurada.
En los últimos años, los riesgos de seguridad asociados con los grandes modelos de lenguaje se han vuelto cada vez más prominentes, destacando la necesidad urgente de mitigar la generación de contenido tóxico y dañino. El paradigma predominante para la alineación de seguridad en LLM generalmente adopta un marco colaborativo que involucra tres roles: un atacante para la generación de indicaciones adversarias, un defensor para la protección de seguridad y un evaluador para la valoración de respuestas. En este artículo, proponemos un marco de aprendizaje por refuerzo de ciclo cerrado denominado TriPlay-RL que permite una colaboración iterativa y de mejora conjunta entre los tres roles con anotación manual casi nula. Los resultados experimentales muestran que el atacante preserva una alta diversidad de salida mientras logra una mejora del 20%-50% en efectividad adversarial; el defensor obtiene ganancias del 10%-30% en rendimiento de seguridad sin degradar la capacidad de razonamiento general; y el evaluador refina continuamente su capacidad de juicio granular mediante iteraciones, distinguiendo con precisión respuestas inseguras, rechazos simples y orientaciones útiles. En conjunto, nuestro marco establece un paradigma eficiente y escalable para la alineación de seguridad en LLM, permitiendo una co-evolución continua dentro de un bucle de aprendizaje unificado.
La escalabilidad de los grandes modelos de lenguaje (LLM) está alcanzando un límite. Expandir la amplitud de los modelos produce rendimientos decrecientes, y extender la longitud del contexto no mejora la expresividad fundamental. En contraste, la escalabilidad en profundidad ofrece una expresividad teóricamente superior; sin embargo, las arquitecturas Transformer actuales tienen dificultades para entrenarse de manera confiable a profundidades extremas. Revisamos la formulación Post-LayerNorm (Post-LN), cuya inestabilidad a gran escala causó su reemplazo por Pre-LN en los LLM modernos. Demostramos que el modo de fallo central de Post-LN surge de la ruta residual de estilo ResNet, que introduce el desvanecimiento del gradiente en redes profundas. Presentamos Keel, un Transformer Post-LN que reemplaza esta ruta residual con una conexión de estilo Highway. Esta modificación preserva el flujo del gradiente a través de la rama residual, evitando que la señal se desvanezca desde las capas superiores a las inferiores. A diferencia de métodos anteriores, Keel permite un entrenamiento estable a profundidades extremas sin requerir inicializaciones especializadas o trucos de optimización complejos. Keel se entrena de manera robusta a profundidades que superan las 1000 capas y mejora consistentemente la perplejidad y las características de escalado en profundidad en comparación con Pre-LN. Estos hallazgos indican que Post-LN, cuando se combina con una conexión de estilo Highway, proporciona una base simple y efectiva para construir LLM profundamente escalables, abriendo la posibilidad de futuras arquitecturas de profundidad infinita.
A pesar de los avances significativos en la alineación, los modelos de lenguaje grandes (LLM) siguen siendo vulnerables a ataques adversarios que provocan comportamientos nocivos. Las técnicas de direccionamiento de activaciones ofrecen un enfoque prometedor de intervención en tiempo de inferencia, pero los métodos existentes adolecen de limitaciones críticas: la adición de activaciones requiere un ajuste cuidadoso de coeficientes y es sensible a las variaciones de norma específicas de cada capa, mientras que la ablación direccional proporciona solo un control binario. Trabajos recientes sobre Direccionamiento Angular introducen control continuo mediante rotación en un subespacio 2D, pero su implementación práctica viola la preservación de la norma, causando desplazamiento de la distribución y colapso en la generación, particularmente en modelos con menos de 7B de parámetros. Proponemos el Direccionamiento Selectivo, que aborda estas limitaciones mediante dos innovaciones clave: (1) una formulación de rotación matemáticamente rigurosa que preserva la norma y mantiene la integridad de la distribución de activaciones, y (2) una selección discriminativa de capas que aplica el direccionamiento solo donde las representaciones de características muestran una alineación de clase con signos opuestos. Los experimentos en nueve modelos demuestran que el Direccionamiento Selectivo logra tasas de éxito de ataque 5.5 veces superiores a los métodos anteriores, manteniendo cero violaciones de perplejidad y aproximadamente un 100% de retención de capacidades en benchmarks estándar. Nuestro enfoque proporciona un marco eficiente y fundamentado para la modificación del comportamiento de LLMs de manera controlable y estable. Código: https://github.com/knoveleng/steering
El entrenamiento moderno en paralelo de datos (DP) favorece la comunicación colectiva sobre los servidores de parámetros (PS) por su simplicidad y eficiencia bajo cargas de trabajo equilibradas. Sin embargo, la suposición de carga equilibrada ya no se cumple en el post-entrenamiento de modelos de lenguaje grandes (LLM) debido a la alta varianza en las longitudes de secuencia. Bajo cargas de trabajo desequilibradas, la comunicación colectiva crea barreras de sincronización, lo que lleva a una subutilización de los dispositivos con cargas de trabajo menores. Este cambio en la dinámica del entrenamiento justifica un replanteamiento del paradigma de PS por su robustez ante dicho desequilibrio. Proponemos Comunicación Bajo Demanda (ODC), que adapta PS al Paralelismo de Datos Totalmente Fragmentado (FSDP) reemplazando la recolección total (all-gather) y la dispersión-reducción (reduce-scatter) colectivas con comunicación punto a punto directa. En comparación con FSDP, ODC reduce la barrera de sincronización de una vez por capa a una vez por minilote y desacopla la carga de trabajo en cada dispositivo para que los trabajadores más rápidos no se vean detenidos. También permite un balanceo de carga más simple y efectivo a nivel de minilote. En diversas tareas de post-entrenamiento de LLM, ODC mejora consistentemente la utilización de dispositivos y el rendimiento del entrenamiento, logrando una aceleración de hasta un 36% sobre FSDP estándar. Estos resultados demuestran que ODC es una opción superior para las cargas de trabajo desequilibradas prevalentes en el post-entrenamiento de LLM. Nuestra implementación de ODC y su integración con FSDP es de código abierto en https://github.com/sail-sg/odc.
Presentamos SimpleSeg, un enfoque sorprendentemente simple pero altamente efectivo para dotar a los Modelos Grandes de Lenguaje Multimodal (MLLMs) de percepción nativa a nivel de píxel. Nuestro método replantea la segmentación como un simple problema de generación de secuencias: el modelo predice directamente secuencias de puntos (coordenadas textuales) que delinean los límites de los objetos, completamente dentro de su espacio lingüístico. Para lograr una alta fidelidad, introducimos una canalización de entrenimiento en dos etapas, SFtoRL, donde el Aprendizaje por Refuerzo con una recompensa basada en IoU refina las secuencias de puntos para que coincidan con precisión con los contornos reales. Descubrimos que la arquitectura estándar de los MLLM posee una fuerte capacidad inherente para la percepción de bajo nivel que puede desbloquearse sin necesidad de ninguna arquitectura especializada. En los puntos de referencia de segmentación, SimpleSeg logra un rendimiento comparable y, a menudo, superior al de los métodos que dependen de diseños complejos y específicos de la tarea. Este trabajo demuestra que la comprensión espacial precisa puede surgir de la simple predicción de puntos, desafiando la necesidad predominante de componentes auxiliares y allanando el camino para Modelos de Lenguaje Visual más unificados y capaces. Página web: https://simpleseg.github.io/
Recientemente, hemos observado con frecuencia citas o referencias alucinadas que no corresponden a ningún trabajo existente en artículos en revisión, preprints o publicaciones ya editadas. Estas citas alucinadas representan una seria preocupación para la fiabilidad científica. Cuando aparecen en artículos aceptados, también pueden afectar negativamente la credibilidad de las conferencias. En este estudio, nos referimos a las citas alucinadas como "HalluCitation" e investigamos sistemáticamente su prevalencia e impacto. Analizamos todos los artículos publicados en ACL, NAACL y EMNLP en 2024 y 2025, incluyendo los de la conferencia principal, Findings y talleres. Nuestro análisis revela que casi 300 artículos contienen al menos una HalluCitation, la mayoría de los cuales se publicaron en 2025. Cabe destacar que la mitad de estos artículos se identificaron en EMNLP 2025, la conferencia más reciente, lo que indica que este problema está aumentando rápidamente. Además, más de 100 de estos artículos fueron aceptados como parte de la conferencia principal y de Findings en EMNLP 2025, lo que afecta a la credibilidad.
Los modelos de difusión logran un rendimiento de vanguardia, pero a menudo fallan en generar resultados que se alineen con las preferencias e intenciones humanas, lo que da lugar a imágenes con baja calidad estética e inconsistencias semánticas. Los métodos de alineación existentes presentan una difícil disyuntiva: los enfoques de ajuste fino sufren de pérdida de diversidad debido a la sobreoptimización de la recompensa, mientras que los métodos de escalado en tiempo de prueba introducen una sobrecarga computacional significativa y tienden a una suboptimización. Para abordar estas limitaciones, proponemos HyperAlign, un marco novedoso que entrena una hiperred para una alineación eficiente y efectiva en tiempo de prueba. En lugar de modificar los estados latentes, HyperAlign genera dinámicamente pesos de adaptación de bajo rango para modular los operadores de generación del modelo de difusión. Esto permite que la trayectoria de eliminación de ruido se ajuste de forma adaptativa en función de los latentes de entrada, los intervalos de tiempo y las indicaciones para la alineación condicionada por recompensa. Introducimos múltiples variantes de HyperAlign que difieren en la frecuencia con la que se aplica la hiperred, equilibrando rendimiento y eficiencia. Además, optimizamos la hiperred utilizando un objetivo de puntuación de recompensa regularizado con datos de preferencia para reducir la explotación indebida de recompensas. Evaluamos HyperAlign en múltiples paradigmas generativos extendidos, incluyendo Stable Diffusion y FLUX. Supera significativamente a los métodos base existentes de ajuste fino y escalado en tiempo de prueba en la mejora de la consistencia semántica y el atractivo visual.
Los puntos de referencia son herramientas importantes para rastrear el progreso en el desarrollo de Modelos de Lenguaje a Gran Escala (LLMs), sin embargo, las imprecisiones en los conjuntos de datos y los métodos de evaluación socavan constantemente su eficacia. Aquí presentamos Omni-MATH-2, una versión revisada manualmente del conjunto de datos Omni-MATH que comprende un subconjunto limpio de respuestas exactas (n=4181) y un subconjunto etiquetado y no estándar (n=247). Cada problema fue auditado para garantizar su capacidad de compilación en LaTeX, su solubilidad y verificabilidad, lo que implicó añadir figuras o información faltante, etiquetar problemas que requieren una demostración, estimación o imagen, y eliminar información superflua. Este proceso reduce significativamente el ruido inducido por el conjunto de datos, proporcionando así una evaluación más precisa del rendimiento del modelo. El conjunto de datos anotado también nos permite evaluar el ruido inducido por el evaluador al comparar GPT-5 mini con el Omni-Judge original, revelando discrepancias sustanciales entre los evaluadores tanto en el subconjunto de problemas limpios como en el etiquetado. Las anotaciones de expertos revelan que Omni-Judge está equivocado en el 96.4% de los desacuerdos entre evaluadores, lo que indica su incapacidad para diferenciar las habilidades de los modelos, incluso mucho antes de que se alcance la saturación del punto de referencia. A medida que los problemas se vuelven más desafiantes, encontramos que evaluadores cada vez más competentes se vuelven esenciales para evitar que los errores del evaluador enmascaren las diferencias genuinas entre modelos. Finalmente, ningún evaluador identifica los modos de fallo presentes para el subconjunto de problemas etiquetados, lo que demuestra que tanto la calidad del conjunto de datos como la fiabilidad del evaluador son críticas para desarrollar puntos de referencia precisos del rendimiento de los modelos.
Los receptores acoplados a proteínas G (GPCR) regulan diversos procesos fisiológicos y son fundamentales para la farmacología moderna. Sin embargo, el descubrimiento de moduladores de GPCR sigue siendo un desafío, ya que la activación del receptor a menudo surge de complejos efectos alostéricos más que de la afinidad de unión directa, y los ensayos convencionales son lentos, costosos y no están optimizados para capturar estas dinámicas. Aquí presentamos GPCR-Filter, un marco de aprendizaje profundo desarrollado específicamente para el descubrimiento de moduladores de GPCR. Compilamos un conjunto de datos de alta calidad con más de 90,000 pares GPCR-ligando validados experimentalmente, proporcionando una base sólida para el entrenamiento y la evaluación. GPCR-Filter integra el modelo de lenguaje proteico ESM-3 para representaciones de secuencias de GPCR de alta fidelidad con redes neuronales gráficas que codifican estructuras de ligandos, acoplados mediante un mecanismo de fusión basado en atención que aprende las relaciones funcionales receptor-ligando. En múltiples escenarios de evaluación, GPCR-Filter supera consistentemente a los modelos estado del arte de interacción compuesto-proteína y exhibe una fuerte generalización a receptores y ligandos no vistos. Notablemente, el modelo identificó exitosamente agonistas a nivel micromolar del receptor 5-HT1A con marcos químicos distintos. Estos resultados establecen a GPCR-Filter como un enfoque computacional escalable y efectivo para el descubrimiento de moduladores de GPCR, avanzando en el desarrollo de fármacos asistido por IA para sistemas de señalización complejos.
Los sensores de profundidad están ampliamente desplegados en plataformas robóticas, y los avances en simulación de profundidad rápida y de alta fidelidad han permitido que políticas robóticas entrenadas con observaciones de profundidad logren una transferencia robusta de simulación a realidad para una amplia gama de tareas. A pesar de esto, el aprendizaje de representaciones para la modalidad de profundidad sigue estando menos explorado en comparación con RGB, donde los modelos fundacionales a gran escala definen ahora el estado del arte. Para abordar esta brecha, presentamos DeFM, un modelo fundacional de auto-supervisión entrenado completamente en imágenes de profundidad para aplicaciones robóticas. Utilizando un objetivo de auto-distilación estilo DINO en un conjunto de datos curado de 60 millones de imágenes de profundidad, DeFM aprende representaciones geométricas y semánticas que generalizan a diversos entornos, tareas y sensores. Para retener la conciencia métrica a través de múltiples escalas, introducimos una novedosa estrategia de normalización de entrada. Además, destilamos DeFM en modelos compactos adecuados para sistemas robóticos con recursos limitados. Al evaluarse en benchmarks de clasificación, segmentación, navegación, locomoción y manipulación basados en profundidad, DeFM logra un rendimiento de vanguardia y demuestra una fuerte generalización de entornos de simulación a entornos del mundo real. Publicamos todos nuestros modelos preentrenados, que pueden adoptarse directamente para el aprendizaje robótico basado en profundidad sin ajuste específico por tarea. Página web: https://de-fm.github.io/
La resolución de conflictos en equipos requiere no solo competencia específica en la tarea, sino también inteligencia social para encontrar puntos en común y construir consenso. A medida que los agentes de IA colaboran cada vez más en trabajos complejos, deben desarrollar capacidades de coordinación para funcionar como compañeros de equipo efectivos. Sin embargo, planteamos la hipótesis de que los agentes actuales carecen de estas capacidades. Para probarlo, presentamos CooperBench, un benchmark con más de 600 tareas de codificación colaborativa en 12 bibliotecas y 4 lenguajes de programación. Cada tarea asigna a dos agentes diferentes características que pueden implementarse de forma independiente, pero que pueden entrar en conflicto sin una coordinación adecuada. Las tareas se basan en repositorios reales de código abierto con pruebas escritas por expertos. Al evaluar a los agentes de codificación más avanzados, observamos la maldición de la coordinación: los agentes logran tasas de éxito en promedio un 30% más bajas cuando trabajan juntos en comparación con realizar ambas tareas individualmente. Esto contrasta marcadamente con los equipos humanos, donde agregar compañeros de equipo generalmente mejora la productividad. Nuestro análisis revela tres problemas clave: (1) los canales de comunicación se saturan con mensajes vagos, inoportunos e inexactos; (2) incluso con comunicación efectiva, los agentes se desvían de sus compromisos; y (3) los agentes a menudo mantienen expectativas incorrectas sobre los planes y la comunicación de los demás. A través de simulaciones a gran escala, también observamos comportamientos emergentes de coordinación raros pero interesantes, incluida la división de roles, la división de recursos y la negociación. Nuestra investigación presenta un nuevo benchmark para la codificación colaborativa y aboga por un cambio desde la búsqueda de la capacidad individual del agente hacia el desarrollo de la inteligencia social.
El ciclo de diseño de Verilog es inherentemente intensivo en mano de obra y requiere un amplio conocimiento del dominio. Aunque los Modelos de Lenguaje a Gran Escala (LLMs) ofrecen una vía prometedora hacia la automatización, sus datos de entrenamiento limitados y su razonamiento secuencial intrínseco no logran capturar la lógica formal estricta y la concurrencia inherentes a los sistemas de hardware. Para superar estas barreras, presentamos EvolVE, el primer marco que analiza múltiples estrategias de evolución en tareas de diseño de chips, revelando que la Búsqueda en Árbol de Monte Carlo (MCTS) sobresale en maximizar la corrección funcional, mientras que el Refinamiento Guiado por Ideas (IGR) resulta superior para la optimización. Además, aprovechamos la Generación Estructurada de Bancos de Pruebas (STG) para acelerar el proceso evolutivo. Para abordar la falta de puntos de referencia de optimización complejos, presentamos IC-RTL, enfocado en problemas de escala industrial derivados del Concurso Nacional de Circuitos Integrados. Las evaluaciones establecen a EvolVE como el nuevo estado del arte, logrando un 98.1% en VerilogEval v2 y un 92% en RTLLM v2. Además, en el conjunto de pruebas IC-RTL de escala industrial, nuestro marco supera las implementaciones de referencia creadas por los participantes del concurso, reduciendo el producto Potencia, Rendimiento, Área (PPA) hasta en un 66% en Codificación Huffman y un 17% en la media geométrica de todos los problemas. El código fuente del benchmark IC-RTL está disponible en https://github.com/weiber2002/ICRTL.
El aprendizaje continuo, que permite a los modelos adquirir nuevas habilidades y conocimientos sin degradar las capacidades existentes, sigue siendo un desafío fundamental para los modelos de base. Si bien el aprendizaje por refuerzo *on-policy* puede reducir el olvido, requiere funciones de recompensa explícitas que a menudo no están disponibles. El aprendizaje a partir de demostraciones de expertos, la alternativa principal, está dominado por el ajuste fino supervisado (SFT), que es inherentemente *off-policy*. Introducimos el Ajuste Fino por Auto-Destilación (SDFT), un método simple que permite el aprendizaje *on-policy* directamente a partir de demostraciones. SDFT aprovecha el aprendizaje en contexto utilizando un modelo condicionado por la demostración como su propio profesor, generando señales de entrenamiento *on-policy* que preservan las capacidades previas mientras adquiere nuevas habilidades. En tareas de aprendizaje de habilidades y adquisición de conocimientos, SDFT supera consistentemente a SFT, logrando una mayor precisión en nuevas tareas mientras reduce sustancialmente el olvido catastrófico. En experimentos de aprendizaje secuencial, SDFT permite que un único modelo acumule múltiples habilidades a lo largo del tiempo sin regresión en el rendimiento, estableciendo la destilación *on-policy* como una vía práctica para el aprendizaje continuo a partir de demostraciones.