Artículos de investigación en IA seleccionados diariamente con traducciones
Los LLM han demostrado una fuerte capacidad de razonamiento matemático al aprovechar el aprendizaje por refuerzo con cadenas de pensamiento largas, pero continúan enfrentando dificultades en la demostración de teoremas debido a la falta de señales de supervisión claras cuando se utiliza únicamente lenguaje natural. Lenguajes específicos de dominio como Lean proporcionan una supervisión clara mediante la verificación formal de pruebas, lo que permite un entrenamiento efectivo a través del aprendizaje por refuerzo. En este trabajo, proponemos Seed-Prover, un modelo de razonamiento de pruebas completas en estilo lema. Seed-Prover puede refinar iterativamente su demostración basándose en la retroalimentación de Lean, lemas probados y auto-resúmenes. Para resolver problemas de nivel de la Olimpiada Internacional de Matemáticas (IMO), diseñamos tres estrategias de inferencia en tiempo de prueba que permiten un razonamiento tanto profundo como amplio. Seed-Prover demuestra el 78.1% de los problemas formalizados de IMO anteriores, satura MiniF2F y logra más del 50% en PutnamBench, superando ampliamente el estado del arte anterior. Para abordar la falta de soporte de geometría en Lean, introducimos un motor de razonamiento geométrico, Seed-Geometry, que supera a los motores formales de geometría anteriores. Utilizamos estos dos sistemas para participar en la IMO 2025 y demostrar completamente 5 de los 6 problemas. Este trabajo representa un avance significativo en el razonamiento matemático automatizado, demostrando la efectividad de la verificación formal con cadenas de pensamiento largas.
Con el desarrollo de modelos de razonamiento multimodal, los Agentes de Uso de Computadoras (CUAs, por sus siglas en inglés), similares a Jarvis de "Iron Man", se están convirtiendo en una realidad. La fundamentación de la Interfaz Gráfica de Usuario (GUI) es un componente central para que los CUAs ejecuten acciones reales, análogo al control mecánico en robótica, y determina directamente el éxito o el fracaso del sistema. Define acciones como hacer clic y escribir, así como parámetros relacionados, como las coordenadas para los clics. Los modelos de fundamentación de extremo a extremo actuales aún logran menos del 65\% de precisión en puntos de referencia desafiantes como ScreenSpot-pro y UI-Vision, lo que indica que están lejos de estar listos para su implementación. % , ya que un solo clic erróneo puede resultar en consecuencias inaceptables. En este trabajo, realizamos un estudio empírico sobre el entrenamiento de modelos de fundamentación, examinando detalles desde la recopilación de datos hasta el entrenamiento del modelo. Finalmente, desarrollamos la familia de modelos Phi-Ground, que alcanza un rendimiento de vanguardia en los cinco puntos de referencia de fundamentación para modelos con menos de 10B parámetros en configuraciones de agentes. En la configuración de modelo de extremo a extremo, nuestro modelo aún logra resultados SOTA con puntajes de \textbf{43.2} en ScreenSpot-pro y \textbf{27.2} en UI-Vision. Creemos que los diversos detalles discutidos en este documento, junto con nuestros éxitos y fracasos, no solo aclaran la construcción de modelos de fundamentación, sino que también benefician otras tareas de percepción. Página del proyecto: https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
Los Modelos de Diálogo Hablado (SDMs, por sus siglas en inglés) han atraído recientemente una atención significativa debido a su capacidad para generar respuestas de voz directamente a las consultas habladas de los usuarios. A pesar de su creciente popularidad, existe una brecha en la investigación centrada en comprender de manera integral su efectividad práctica para comprender y emular conversaciones humanas. Esto es especialmente cierto en comparación con los Modelos de Lenguaje de Gran Escala (LLMs) basados en texto, los cuales se benefician de una extensa evaluación comparativa. Las interacciones de voz humana son inherentemente más complejas que el texto debido a características únicas del diálogo hablado. La ambigüedad representa un desafío, derivado de factores semánticos como la polisemia, así como aspectos fonológicos como los heterógrafos, heterónimos y patrones de acentuación. Además, la dependencia del contexto, como la omisión, la correferencia y la interacción de múltiples turnos, añade mayor complejidad a la dinámica de las conversaciones humanas. Para esclarecer el estado actual del desarrollo de los SDMs y abordar estos desafíos, presentamos en este artículo un conjunto de datos de referencia que comprende 1.079 instancias en inglés y chino. Acompañado de un método de evaluación basado en LLMs que se alinea estrechamente con el juicio humano, este conjunto de datos facilita una exploración exhaustiva del rendimiento de los SDMs al enfrentar estos desafíos prácticos.
Los sistemas de recomendación se encuentran entre las aplicaciones más impactantes de la inteligencia artificial, sirviendo como infraestructura crítica que conecta a usuarios, comerciantes y plataformas. Sin embargo, la mayoría de los sistemas industriales actuales siguen dependiendo en gran medida de patrones de co-ocurrencia histórica y objetivos de ajuste de registros, es decir, optimizan las interacciones pasadas de los usuarios sin modelar explícitamente la intención del usuario. Este enfoque de ajuste de registros a menudo conduce a un sobreajuste a preferencias históricas estrechas, fallando en capturar los intereses evolutivos y latentes de los usuarios. Como resultado, refuerza las burbujas de filtro y los fenómenos de cola larga, perjudicando finalmente la experiencia del usuario y amenazando la sostenibilidad de todo el ecosistema de recomendación. Para abordar estos desafíos, reconsideramos el paradigma de diseño general de los sistemas de recomendación y proponemos RecGPT, un marco de próxima generación que coloca la intención del usuario en el centro del proceso de recomendación. Al integrar modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en etapas clave como la minería de intereses del usuario, la recuperación de elementos y la generación de explicaciones, RecGPT transforma la recomendación basada en ajuste de registros en un proceso centrado en la intención. Para alinear eficazmente los LLMs de propósito general con las tareas específicas de recomendación a gran escala, RecGPT incorpora un paradigma de entrenamiento en múltiples etapas, que integra una pre-alineación mejorada con razonamiento y una evolución de autoentrenamiento, guiada por un sistema de evaluación cooperativa entre humanos y LLMs. Actualmente, RecGPT ha sido implementado por completo en la aplicación Taobao. Los experimentos en línea demuestran que RecGPT logra mejoras consistentes en el rendimiento para todas las partes interesadas: los usuarios se benefician de una mayor diversidad de contenido y satisfacción, mientras que los comerciantes y la plataforma obtienen una mayor exposición y conversiones. Estos resultados de mejora integral en todas las partes interesadas validan que el diseño centrado en la intención y basado en LLMs puede fomentar un ecosistema de recomendación más sostenible y mutuamente beneficioso.
Los modelos Visual-Language-Action (VLA) han surgido como un paradigma popular para el aprendizaje de políticas de manipulación robótica que pueden seguir instrucciones en lenguaje natural y generalizar a escenarios novedosos. Trabajos recientes han comenzado a explorar la incorporación de acciones latentes, una representación abstracta del cambio visual entre dos fotogramas, en el preentrenamiento de VLA. En este artículo, presentamos villa-X, un nuevo marco Visual-Language-Latent-Action (ViLLA) que avanza en el modelado de acciones latentes para el aprendizaje de políticas de manipulación robótica generalizables. Nuestro enfoque mejora tanto la forma en que se aprenden las acciones latentes como su incorporación en el preentrenamiento de VLA. En conjunto, estas contribuciones permiten que villa-X logre un rendimiento superior en entornos simulados, incluyendo SIMPLER y LIBERO, así como en dos configuraciones robóticas del mundo real que involucran manipulación con pinza y mano diestra. Creemos que el paradigma ViLLA tiene un potencial significativo y que nuestra villa-X proporciona una base sólida para futuras investigaciones.
El modelado 3D feed-forward ha surgido como un enfoque prometedor para la reconstrucción 3D rápida y de alta calidad. En particular, la generación directa de representaciones 3D explícitas, como el splatting de Gaussianas 3D, ha atraído una atención significativa debido a su renderizado rápido y de alta calidad, así como a sus numerosas aplicaciones. Sin embargo, muchos métodos de vanguardia, basados principalmente en arquitecturas transformer, sufren graves problemas de escalabilidad porque dependen de una atención completa entre los tokens de imagen de múltiples vistas de entrada, lo que resulta en costos computacionales prohibitivos a medida que aumenta el número de vistas o la resolución de la imagen. Hacia una reconstrucción 3D feed-forward escalable y eficiente, presentamos un Modelo de Reconstrucción 3D Grande iterativo (iLRM) que genera representaciones de Gaussianas 3D mediante un mecanismo de refinamiento iterativo, guiado por tres principios fundamentales: (1) desacoplar la representación de la escena de las imágenes de las vistas de entrada para permitir representaciones 3D compactas; (2) descomponer las interacciones multi-vista de atención completa en un esquema de atención de dos etapas para reducir los costos computacionales; y (3) inyectar información de alta resolución en cada capa para lograr una reconstrucción de alta fidelidad. Los resultados experimentales en conjuntos de datos ampliamente utilizados, como RE10K y DL3DV, demuestran que iLRM supera a los métodos existentes tanto en calidad de reconstrucción como en velocidad. Notablemente, iLRM exhibe una escalabilidad superior, ofreciendo una calidad de reconstrucción significativamente mayor bajo un costo computacional comparable al aprovechar eficientemente un mayor número de vistas de entrada.
Si bien el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha logrado un éxito notable en el modelado del lenguaje, su triunfo aún no se ha trasladado completamente a los agentes visomotores. Un desafío principal en los modelos de RL es su tendencia a sobreajustarse a tareas o entornos específicos, lo que dificulta la adquisición de comportamientos generalizables en diversos contextos. Este artículo ofrece una respuesta preliminar a este desafío al demostrar que los agentes visomotores ajustados mediante RL en Minecraft pueden lograr una generalización de cero disparos (zero-shot) a mundos no vistos. Específicamente, exploramos el potencial del RL para mejorar las capacidades de razonamiento espacial e interacción generalizables en mundos 3D. Para abordar los desafíos en la representación de RL multitarea, analizamos y establecemos la especificación de objetivos entre vistas como un espacio de objetivos unificado para políticas visomotoras. Además, para superar el cuello de botella significativo del diseño manual de tareas, proponemos la síntesis automatizada de tareas dentro del entorno altamente personalizable de Minecraft para el entrenamiento de RL multitarea a gran escala, y construimos un marco de RL distribuido eficiente para respaldar esto. Los resultados experimentales muestran que el RL aumenta significativamente las tasas de éxito de interacción en 4 veces y permite la generalización de cero disparos del razonamiento espacial en diversos entornos, incluidos los del mundo real. Nuestros hallazgos subrayan el inmenso potencial del entrenamiento de RL en entornos simulados en 3D, especialmente aquellos susceptibles a la generación de tareas a gran escala, para avanzar significativamente en el razonamiento espacial de los agentes visomotores.
Presentamos NeRF-GS, un marco novedoso que optimiza conjuntamente los Campos de Radiancia Neural (NeRF) y el Splatting Gaussiano 3D (3DGS). Este marco aprovecha la representación espacial continua inherente de NeRF para mitigar varias limitaciones de 3DGS, incluyendo la sensibilidad a la inicialización gaussiana, la conciencia espacial limitada y las débiles correlaciones inter-gaussianas, mejorando así su rendimiento. En NeRF-GS, revisamos el diseño de 3DGS y alineamos progresivamente sus características espaciales con NeRF, permitiendo que ambas representaciones se optimicen dentro de la misma escena a través de información espacial 3D compartida. Además, abordamos las distinciones formales entre los dos enfoques optimizando vectores residuales tanto para las características implícitas como para las posiciones gaussianas, con el fin de mejorar las capacidades personalizadas de 3DGS. Los resultados experimentales en conjuntos de datos de referencia muestran que NeRF-GS supera los métodos existentes y alcanza un rendimiento de vanguardia. Este resultado confirma que NeRF y 3DGS son complementarios en lugar de competidores, ofreciendo nuevas perspectivas sobre enfoques híbridos que combinan 3DGS y NeRF para una representación eficiente de escenas 3D.
Los modelos de lenguaje de gran escala interactúan con los usuarios a través de una persona simulada denominada 'Asistente'. Aunque el Asistente suele estar entrenado para ser útil, inofensivo y honesto, en ocasiones se desvía de estos ideales. En este artículo, identificamos direcciones en el espacio de activación del modelo—vectores de personalidad—que subyacen a varios rasgos, como la malicia, la adulación y la propensión a alucinar. Confirmamos que estos vectores pueden utilizarse para monitorear fluctuaciones en la personalidad del Asistente durante su despliegue. Luego, aplicamos los vectores de personalidad para predecir y controlar los cambios de personalidad que ocurren durante el entrenamiento. Descubrimos que tanto los cambios de personalidad intencionales como los no intencionales después del ajuste fino están fuertemente correlacionados con desplazamientos a lo largo de los vectores de personalidad relevantes. Estos desplazamientos pueden mitigarse mediante intervenciones posteriores o evitarse desde el principio con un nuevo método de dirección preventiva. Además, los vectores de personalidad pueden utilizarse para señalar datos de entrenamiento que producirán cambios de personalidad no deseados, tanto a nivel de conjunto de datos como a nivel de muestra individual. Nuestro método para extraer vectores de personalidad está automatizado y puede aplicarse a cualquier rasgo de personalidad de interés, dado únicamente una descripción en lenguaje natural.
Los modelos de lenguaje multimodal de gran escala (MLLMs) permiten el razonamiento visión-lenguaje, pero a menudo generan resultados plausibles que son factualmente incorrectos o visualmente infundados, lo que compromete su fiabilidad. La optimización de preferencias directas (DPO) es una estrategia común para corregir alucinaciones al alinear las salidas del modelo con las preferencias humanas. Las estrategias DPO existentes suelen tratar las preferencias relacionadas con alucinaciones como objetivos fijos, dependiendo de señales de supervisión estáticas durante el entrenamiento. Este enfoque tiende a sobreajustarse a indicadores lingüísticos superficiales en los datos de preferencia, lo que lleva a una rigidez distribucional y correlaciones espurias que perjudican la fundamentación en información visual causalmente relevante. Para superar esta limitación, proponemos TARS, una estrategia de preferencias adaptativa a nivel de token que reformula DPO como un problema de optimización min-max. TARS maximiza los cambios distribucionales a nivel de token bajo restricciones semánticas para simular la incertidumbre de alineación, y simultáneamente minimiza la pérdida de preferencia esperada bajo estas perturbaciones controladas. Este objetivo conjunto preserva la fundamentación causal mientras mitiga el sobreajuste a patrones de preferencia, reduciendo así las alucinaciones en el razonamiento multimodal. Evaluamos TARS en múltiples benchmarks de alucinación y encontramos un rendimiento consistentemente sólido. Utilizando solo 4.8k muestras de preferencia y sin retroalimentación experta, TARS reduce las tasas de alucinación del 26.4% al 13.2% y disminuye el valor de cognición de 2.5 a 0.4. Supera a DPO estándar y se equipara a GPT-4 en varias métricas clave.
La comprensión precisa y automatizada de tareas agrícolas, como la identificación de enfermedades, es esencial para una producción sostenible de cultivos. Los recientes avances en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) se espera que amplíen aún más el alcance de las tareas agrícolas al facilitar la interacción humano-modelo mediante una comunicación sencilla basada en texto. Aquí presentamos AgroBench (Agronomist AI Benchmark), un punto de referencia para evaluar modelos VLM en siete temas agrícolas, cubriendo áreas clave en ingeniería agrícola y relevantes para la agricultura en el mundo real. A diferencia de los recientes puntos de referencia agrícolas para VLMs, AgroBench está anotado por agrónomos expertos. Nuestro AgroBench abarca una gama de categorías de vanguardia, incluyendo 203 categorías de cultivos y 682 categorías de enfermedades, para evaluar exhaustivamente las capacidades de los VLMs. En nuestra evaluación en AgroBench, revelamos que los VLMs tienen margen de mejora en tareas de identificación de grano fino. En particular, en la identificación de malezas, la mayoría de los VLMs de código abierto tienen un rendimiento cercano al azar. Con nuestra amplia gama de temas y categorías anotadas por expertos, analizamos los tipos de errores cometidos por los VLMs y sugerimos posibles vías para el desarrollo futuro de estos modelos. Nuestro conjunto de datos y código están disponibles en https://dahlian00.github.io/AgroBenchPage/.
La clasificación de estilos artísticos sigue siendo un desafío formidable en la estética computacional debido a la escasez de conjuntos de datos etiquetados por expertos y la intrincada, a menudo no lineal, interacción de elementos estilísticos. Si bien los marcos de autoaprendizaje con doble profesor recientes reducen la dependencia de datos etiquetados, sus capas de proyección lineal y enfoque localizado tienen dificultades para modelar el contexto compositivo global y las interacciones complejas entre características de estilo. Mejoramos el marco de destilación de conocimiento de doble profesor para abordar estas limitaciones al reemplazar las cabezas de proyección y predicción convencionales de MLP con Redes de Kolmogorov-Arnold (KANs). Nuestro enfoque mantiene la guía complementaria de dos redes profesor, una enfatizando patrones localizados de textura y pinceladas, y la otra capturando jerarquías estilísticas más amplias, mientras aprovecha las activaciones basadas en splines de las KANs para modelar correlaciones no lineales de características con precisión matemática. Los experimentos en WikiArt y Pandora18k demuestran que nuestro enfoque supera la arquitectura base de doble profesor en precisión Top-1. Nuestros hallazgos resaltan la importancia de las KANs en el desenredado de variedades estilísticas complejas, lo que conduce a una mejor precisión en la sonda lineal en comparación con las proyecciones MLP.
Desde su introducción, la atención softmax se ha convertido en la columna vertebral de las arquitecturas modernas de transformadores debido a su expresividad y escalabilidad en una amplia gama de tareas. Sin embargo, el principal inconveniente de la atención softmax es el requisito de memoria cuadrática y la complejidad computacional con respecto a la longitud de la secuencia. Al reemplazar la no linealidad softmax, se han introducido métodos como la atención lineal y similares para evitar el cuello de botella cuadrático de la atención softmax. A pesar de que estas formas lineales de atención se derivan de la formulación original de softmax, generalmente se quedan atrás en términos de precisión en tareas posteriores. Aunque una intuición sólida sobre la no linealidad softmax en el producto interno entre consultas y claves sugiere que tiene propiedades deseables en comparación con otras no linealidades, la pregunta de por qué existe esta discrepancia sigue sin respuesta. Este trabajo demuestra que la atención lineal es una aproximación de la atención softmax al derivar la forma recurrente de la atención softmax. Utilizando esta forma, cada parte de la atención softmax puede describirse en el lenguaje de las redes neuronales recurrentes (RNN). Describir la atención softmax como una RNN permite realizar una ablación de los componentes de la atención softmax para comprender la importancia de cada parte y cómo interactúan. De esta manera, nuestro trabajo ayuda a explicar por qué la atención softmax es más expresiva que sus contrapartes.
Los datos llegan a nuestros sentidos como un flujo continuo, transformándose suavemente de un instante al siguiente. Estas transformaciones suaves pueden verse como simetrías continuas del entorno que habitamos, definiendo relaciones de equivalencia entre estímulos a lo largo del tiempo. En el aprendizaje automático, las arquitecturas de redes neuronales que respetan las simetrías de sus datos se denominan equivariantes y tienen beneficios demostrables en términos de capacidad de generalización y eficiencia de muestreo. Hasta la fecha, sin embargo, la equivarianza solo se ha considerado para transformaciones estáticas y redes de alimentación directa, limitando su aplicabilidad a modelos de secuencias, como las redes neuronales recurrentes (RNN), y a las transformaciones de secuencias parametrizadas en el tiempo correspondientes. En este trabajo, extendemos la teoría de redes equivariantes a este régimen de 'flujos': subgrupos de Lie de un parámetro que capturan transformaciones naturales a lo largo del tiempo, como el movimiento visual. Comenzamos mostrando que las RNN estándar generalmente no son equivariantes a flujos: sus estados ocultos no se transforman de manera geométricamente estructurada para estímulos en movimiento. Luego mostramos cómo se puede introducir la equivarianza a flujos y demostramos que estos modelos superan significativamente a sus contrapartes no equivariantes en términos de velocidad de entrenamiento, generalización de longitud y generalización de velocidad, tanto en la predicción del siguiente paso como en la clasificación de secuencias. Presentamos este trabajo como un primer paso hacia la construcción de modelos de secuencias que respeten las simetrías parametrizadas en el tiempo que gobiernan el mundo que nos rodea.
El árabe presenta un desafío particular para el procesamiento del lenguaje natural (PLN) y la recuperación de información (RI) debido a su morfología compleja, los diacríticos opcionales y la coexistencia del árabe estándar moderno (MSA) y diversos dialectos. A pesar de la creciente importancia global del árabe, sigue estando subrepresentado en la investigación de PLN y en los recursos de referencia. En este artículo, presentamos un marco mejorado de Recuperación de Pasajes Densos (DPR) desarrollado específicamente para el árabe. En el núcleo de nuestro enfoque se encuentra una novedosa Puntuación de Relevancia Atenta (ARS) que reemplaza los mecanismos de interacción estándar con una función de puntuación adaptativa que modela de manera más efectiva la relevancia semántica entre preguntas y pasajes. Nuestro método integra modelos de lenguaje en árabe preentrenados y refinamientos arquitectónicos para mejorar el rendimiento de la recuperación y aumentar significativamente la precisión en la clasificación al responder preguntas en árabe. El código está disponible públicamente en https://github.com/Bekhouche/APR{GitHub}.
Debido a las crecientes preocupaciones sobre la privacidad, el desaprendizaje en máquinas, que busca permitir que los modelos de aprendizaje automático "olviden" datos específicos de entrenamiento, ha recibido una atención cada vez mayor. Entre los métodos existentes, el desaprendizaje basado en influencia ha surgido como un enfoque destacado debido a su capacidad para estimar el impacto de muestras individuales de entrenamiento en los parámetros del modelo sin necesidad de reentrenamiento. Sin embargo, este enfoque sufre de una sobrecarga computacional prohibitiva que surge de la necesidad de calcular la matriz Hessiana y su inversa en todas las muestras de entrenamiento y parámetros, lo que lo hace poco práctico para modelos a gran escala y escenarios que involucran solicitudes frecuentes de eliminación de datos. Esto resalta la dificultad de olvidar. Inspirados por la ciencia cognitiva, que sugiere que memorizar es más fácil que olvidar, este artículo establece un vínculo teórico entre memorizar (aprendizaje incremental) y olvidar (desaprendizaje). Esta conexión permite abordar el desaprendizaje en máquinas desde la perspectiva del aprendizaje incremental. A diferencia de los cálculos de la Hessiana que consumen tiempo en el desaprendizaje (olvidar), el aprendizaje incremental (memorizar) generalmente se basa en una optimización de gradiente más eficiente, lo que respalda la teoría cognitiva mencionada. Basándonos en esta conexión, presentamos el algoritmo de Desaprendizaje por Aproximación de Influencia (IAU, por sus siglas en inglés) para un desaprendizaje eficiente en máquinas desde la perspectiva incremental. Evaluaciones empíricas extensas demuestran que IAU logra un equilibrio superior entre la garantía de eliminación, la eficiencia del desaprendizaje y una utilidad del modelo comparable, superando a los métodos más avanzados en diversos conjuntos de datos y arquitecturas de modelos. Nuestro código está disponible en https://github.com/Lolo1222/IAU.