Artículos de investigación en IA seleccionados diariamente con traducciones
El razonamiento yace en el corazón de la inteligencia, moldeando la capacidad para tomar decisiones, sacar conclusiones y generalizar entre dominios. En la inteligencia artificial, a medida que los sistemas operan cada vez más en entornos abiertos, inciertos y multimodales, el razonamiento se vuelve esencial para habilitar comportamientos robustos y adaptativos. Los Modelos de Razonamiento Multimodal a Gran Escala (LMRMs, por sus siglas en inglés) han surgido como un paradigma prometedor, integrando modalidades como texto, imágenes, audio y video para apoyar capacidades de razonamiento complejas, con el objetivo de lograr una percepción integral, una comprensión precisa y un razonamiento profundo. A medida que avanza la investigación, el razonamiento multimodal ha evolucionado rápidamente desde pipelines modulares impulsados por la percepción hacia frameworks unificados centrados en el lenguaje que ofrecen una comprensión más coherente entre modalidades. Si bien el ajuste por instrucciones y el aprendizaje por refuerzo han mejorado el razonamiento de los modelos, persisten desafíos significativos en la generalización omni-modal, la profundidad del razonamiento y el comportamiento agéntico. Para abordar estos problemas, presentamos una encuesta estructurada y exhaustiva de la investigación en razonamiento multimodal, organizada en torno a una hoja de ruta de desarrollo en cuatro etapas que refleja las filosofías de diseño cambiantes del campo y las capacidades emergentes. Primero, revisamos los esfuerzos iniciales basados en módulos específicos para tareas, donde el razonamiento estaba implícitamente integrado en las etapas de representación, alineación y fusión. Luego, examinamos enfoques recientes que unifican el razonamiento en LLMs multimodales, con avances como la Cadena de Pensamiento Multimodal (MCoT) y el aprendizaje por refuerzo multimodal que permiten cadenas de razonamiento más ricas y estructuradas. Finalmente, basándonos en insights empíricos de benchmarks desafiantes y casos experimentales como OpenAI O3 y O4-mini, discutimos la dirección conceptual de los modelos nativos de razonamiento multimodal a gran escala (N-LMRMs), que buscan apoyar el razonamiento y la planificación escalables, agénticos y adaptativos en entornos complejos del mundo real.
Proponemos Flow-GRPO, el primer método que integra el aprendizaje por refuerzo (RL) en línea en modelos de emparejamiento de flujos. Nuestro enfoque utiliza dos estrategias clave: (1) una conversión de ODE a SDE que transforma una Ecuación Diferencial Ordinaria (ODE) determinista en una Ecuación Diferencial Estocástica (SDE) equivalente que coincide con la distribución marginal del modelo original en todos los pasos de tiempo, permitiendo el muestreo estadístico para la exploración de RL; y (2) una estrategia de Reducción de Ruido que reduce los pasos de eliminación de ruido durante el entrenamiento mientras mantiene el número original de pasos de tiempo en la inferencia, mejorando significativamente la eficiencia del muestreo sin degradación del rendimiento. Empíricamente, Flow-GRPO es efectivo en múltiples tareas de texto a imagen. Para composiciones complejas, SD3.5 ajustado con RL genera recuentos de objetos, relaciones espaciales y atributos detallados casi perfectos, aumentando la precisión de GenEval del 63% al 95%. En la representación visual de texto, su precisión mejora del 59% al 92%, mejorando significativamente la generación de texto. Flow-GRPO también logra avances sustanciales en la alineación con las preferencias humanas. Notablemente, hubo poco o ningún "hacking de recompensas", lo que significa que las recompensas no aumentaron a costa de la calidad o diversidad de las imágenes, y ambas se mantuvieron estables en nuestros experimentos.
Presentamos LegoGPT, el primer enfoque para generar modelos físicamente estables de bloques LEGO a partir de indicaciones de texto. Para lograrlo, construimos un conjunto de datos a gran escala de diseños LEGO físicamente estables, junto con sus descripciones asociadas, y entrenamos un modelo de lenguaje autoregresivo de gran escala para predecir el siguiente bloque a añadir mediante la predicción del siguiente token. Para mejorar la estabilidad de los diseños resultantes, empleamos una verificación de validez eficiente y un retroceso consciente de la física durante la inferencia autoregresiva, que poda las predicciones de tokens inviables utilizando leyes físicas y restricciones de ensamblaje. Nuestros experimentos muestran que LegoGPT produce diseños LEGO estables, diversos y estéticamente agradables que se alinean estrechamente con las indicaciones de texto de entrada. También desarrollamos un método de texturizado basado en texto para generar diseños coloreados y texturizados. Demostramos que nuestros diseños pueden ser ensamblados manualmente por humanos y automáticamente por brazos robóticos. Además, publicamos nuestro nuevo conjunto de datos, StableText2Lego, que contiene más de 47,000 estructuras LEGO de más de 28,000 objetos 3D únicos acompañados de descripciones detalladas, junto con nuestro código y modelos en el sitio web del proyecto: https://avalovelace1.github.io/LegoGPT/.
Evaluar qué tan bien un modelo de lenguaje grande (LLM) comprende a los humanos, en lugar de simplemente texto, sigue siendo un desafío abierto. Para cerrar esta brecha, presentamos Sentient Agent as a Judge (SAGE), un marco de evaluación automatizado que mide la cognición social de orden superior de un LLM. SAGE instancia un Agente Sensible que simula cambios emocionales y pensamientos internos similares a los humanos durante la interacción, proporcionando una evaluación más realista del modelo probado en conversaciones de múltiples turnos. En cada turno, el agente razona sobre (i) cómo cambian sus emociones, (ii) cómo se siente y (iii) cómo debería responder, generando una trayectoria emocional numérica y pensamientos internos interpretables. Los experimentos en 100 escenarios de diálogo de apoyo muestran que la puntuación emocional final del Agente Sensible se correlaciona fuertemente con las calificaciones del Inventario de Relaciones Barrett-Lennard (BLRI) y las métricas de empatía a nivel de enunciado, validando la fidelidad psicológica. También construimos un Tablero de Clasificación Público de Agentes Sensibles que cubre 18 modelos comerciales y de código abierto, revelando brechas sustanciales (hasta 4 veces) entre los sistemas de vanguardia (GPT-4o-Latest, Gemini2.5-Pro) y las líneas base anteriores, brechas que no se reflejan en los tableros de clasificación convencionales (por ejemplo, Arena). SAGE proporciona así una herramienta fundamentada, escalable e interpretable para rastrear el progreso hacia agentes de lenguaje genuinamente empáticos y socialmente hábiles.
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) han logrado avances notables en tareas complejas al generar cadenas de pensamiento extendidas (CoT, por sus siglas en inglés). Sin embargo, sus longitudes de salida no controladas plantean desafíos significativos para su implementación en el mundo real, donde los presupuestos de inferencia en tokens, latencia o capacidad de cómputo están estrictamente limitados. Proponemos Razonamiento Elástico, un marco novedoso para cadenas de pensamiento escalables que separa explícitamente el razonamiento en dos fases—pensamiento y solución—con presupuestos asignados de manera independiente. Durante la fase de prueba, el Razonamiento Elástico prioriza la completitud de los segmentos de solución, mejorando significativamente la confiabilidad bajo restricciones estrictas de recursos. Para entrenar modelos que sean robustos ante pensamientos truncados, introducimos una estrategia ligera de despliegue con restricciones de presupuesto, integrada en GRPO, que enseña al modelo a razonar de manera adaptativa cuando el proceso de pensamiento se interrumpe y generaliza efectivamente a restricciones de presupuesto no vistas sin necesidad de entrenamiento adicional. Los resultados empíricos en benchmarks matemáticos (AIME, MATH500) y de programación (LiveCodeBench, Codeforces) demuestran que el Razonamiento Elástico funciona de manera robusta bajo restricciones estrictas de presupuesto, mientras incurre en costos de entrenamiento significativamente más bajos que los métodos de referencia. Notablemente, nuestro enfoque también produce razonamientos más concisos y eficientes incluso en entornos sin restricciones. El Razonamiento Elástico ofrece una solución práctica y fundamentada al desafío apremiante del razonamiento controlable a gran escala.
La generación de escenas 3D busca sintetizar entornos espacialmente estructurados, semánticamente significativos y fotorrealistas para aplicaciones como medios inmersivos, robótica, conducción autónoma e IA encarnada. Los primeros métodos basados en reglas procedimentales ofrecían escalabilidad pero una diversidad limitada. Los avances recientes en modelos generativos profundos (por ejemplo, GANs, modelos de difusión) y representaciones 3D (por ejemplo, NeRF, Gaussianas 3D) han permitido el aprendizaje de distribuciones de escenas del mundo real, mejorando la fidelidad, diversidad y consistencia de las vistas. Avances recientes como los modelos de difusión conectan la síntesis de escenas 3D y el fotorrealismo al reformular la generación como problemas de síntesis de imágenes o videos. Esta encuesta proporciona una visión sistemática de los enfoques más avanzados, organizándolos en cuatro paradigmas: generación procedimental, generación basada en redes neuronales 3D, generación basada en imágenes y generación basada en videos. Analizamos sus fundamentos técnicos, compensaciones y resultados representativos, y revisamos los conjuntos de datos, protocolos de evaluación y aplicaciones posteriores comúnmente utilizados. Concluimos discutiendo los desafíos clave en la capacidad de generación, representación 3D, datos y anotaciones, y evaluación, y esbozamos direcciones prometedoras que incluyen mayor fidelidad, generación física-consciente e interactiva, y modelos unificados de percepción-generación. Esta revisión organiza los avances recientes en la generación de escenas 3D y destaca direcciones prometedoras en la intersección de la IA generativa, la visión 3D y la inteligencia encarnada. Para seguir los desarrollos en curso, mantenemos una página de proyecto actualizada: https://github.com/hzxie/Awesome-3D-Scene-Generation.
El preentrenamiento de lenguaje-imagen contrastivo (CLIP) sobresale en tareas multimodales como la recuperación de imágenes-texto y la clasificación de disparo cero, pero tiene dificultades con la comprensión de detalles finos debido a su enfoque en descripciones breves y de grano grueso. Para abordar esto, proponemos Fine-Grained CLIP (FG-CLIP), que mejora la comprensión de detalles finos mediante tres innovaciones clave. Primero, aprovechamos modelos multimodales de gran escala para generar 1.6 mil millones de pares de imágenes con descripciones largas, capturando así detalles semánticos a nivel global. Segundo, construimos un conjunto de datos de alta calidad con 12 millones de imágenes y 40 millones de cuadros delimitadores específicos de regiones, alineados con descripciones detalladas para garantizar representaciones precisas y ricas en contexto. Tercero, incorporamos 10 millones de muestras negativas difíciles de grano fino para mejorar la capacidad del modelo de distinguir diferencias semánticas sutiles. Los métodos de entrenamiento correspondientes se diseñan meticulosamente para estos datos. Experimentos extensivos demuestran que FG-CLIP supera al CLIP original y a otros métodos de vanguardia en diversas tareas posteriores, incluyendo la comprensión de detalles finos, la detección de objetos de vocabulario abierto, la recuperación de imágenes-texto y benchmarks multimodales generales. Estos resultados resaltan la efectividad de FG-CLIP para capturar detalles finos en imágenes y mejorar el rendimiento general del modelo. Los datos, código y modelos relacionados están disponibles en https://github.com/360CVGroup/FG-CLIP.
Los modelos propietarios recientes (por ejemplo, o3) han comenzado a demostrar capacidades sólidas de razonamiento multimodal. Sin embargo, la mayoría de las investigaciones de código abierto existentes se concentran en entrenar modelos de razonamiento exclusivamente basados en texto, con evaluaciones limitadas principalmente a tareas matemáticas y de dominio general. Por lo tanto, aún no está claro cómo extender eficazmente las capacidades de razonamiento más allá de la entrada de texto y los dominios generales. Este artículo explora una pregunta fundamental de investigación: ¿Es el razonamiento generalizable entre modalidades y dominios? Nuestros hallazgos respaldan una respuesta afirmativa: el post-entrenamiento basado en texto de dominio general puede permitir un razonamiento tan fuerte y generalizable. Aprovechando este hallazgo, presentamos X-Reasoner, un modelo de visión y lenguaje post-entrenado únicamente en texto de dominio general para un razonamiento generalizable, utilizando un enfoque de dos etapas: una fase inicial de ajuste fino supervisado con cadenas de pensamiento largas destiladas, seguida de aprendizaje por refuerzo con recompensas verificables. Los experimentos muestran que X-Reasoner transfiere con éxito las capacidades de razonamiento a entornos tanto multimodales como fuera de dominio, superando a los modelos de última generación existentes entrenados con datos de dominio específico y multimodales en varios puntos de referencia generales y médicos (Figura 1). Además, encontramos que el rendimiento de X-Reasoner en dominios especializados puede mejorarse aún más mediante un entrenamiento continuo con datos de texto específicos del dominio. Basándonos en esto, presentamos X-Reasoner-Med, una variante especializada en medicina que establece un nuevo estado del arte en numerosos puntos de referencia médicos, tanto de texto como multimodales.
Presentamos StreamBridge, un marco simple pero efectivo que transforma sin problemas los Video-LLM offline en modelos capaces de funcionar en streaming. Aborda dos desafíos fundamentales en la adaptación de modelos existentes a escenarios en línea: (1) capacidad limitada para la comprensión en tiempo real en múltiples turnos, y (2) falta de mecanismos de respuesta proactiva. Específicamente, StreamBridge incorpora (1) un búfer de memoria combinado con una estrategia de compresión de decaimiento circular, que soporta interacciones de múltiples turnos con contexto largo, y (2) un modelo de activación ligero y desacoplado que puede integrarse sin esfuerzo en Video-LLM existentes, permitiendo respuestas proactivas continuas. Para respaldar aún más StreamBridge, construimos Stream-IT, un conjunto de datos a gran escala diseñado para la comprensión de video en streaming, que presenta secuencias intercaladas de video-texto y diversos formatos de instrucción. Experimentos extensos muestran que StreamBridge mejora significativamente las capacidades de comprensión en streaming de Video-LLM offline en diversas tareas, superando incluso a modelos propietarios como GPT-4o y Gemini 1.5 Pro. Simultáneamente, logra un rendimiento competitivo o superior en benchmarks estándar de comprensión de video.
Presentamos la novedosa tarea de Colocación de Objetos Guiada por Lenguaje en Escenas 3D Reales. Nuestro modelo recibe una nube de puntos de una escena 3D, un activo 3D y una indicación textual que describe de manera general dónde debería colocarse el activo 3D. La tarea consiste en encontrar una ubicación válida para el activo 3D que respete la indicación. En comparación con otras tareas de localización guiada por lenguaje en escenas 3D, como la fundamentación, esta tarea presenta desafíos específicos: es ambigua porque tiene múltiples soluciones válidas y requiere razonar sobre relaciones geométricas 3D y espacio libre. Inauguramos esta tarea proponiendo un nuevo punto de referencia y un protocolo de evaluación. También introducimos un nuevo conjunto de datos para entrenar modelos de lenguaje grandes (LLM) en 3D para esta tarea, así como el primer método que sirve como una línea base no trivial. Creemos que esta tarea desafiante y nuestro nuevo punto de referencia podrían formar parte del conjunto de pruebas utilizadas para evaluar y comparar modelos generalistas de LLM en 3D.
Los métodos predominantes de aprendizaje por refuerzo~(RL) para el ajuste fino de razonadores de modelos de lenguaje grandes (LLM), como GRPO o Leave-one-out PPO, abandonan la función de valor aprendida en favor de retornos estimados empíricamente. Esto dificulta la escalabilidad del cómputo en tiempo de prueba que depende del uso de la función de valor para verificación. En este trabajo, proponemos RL^V, que amplía cualquier método de RL "sin valor" al entrenar conjuntamente el LLM como razonador y verificador generativo utilizando datos generados por RL, añadiendo capacidades de verificación sin un sobrecosto significativo. Empíricamente, RL^V aumenta la precisión en MATH en más de un 20% con muestreo paralelo y permite una escalabilidad del cómputo en tiempo de prueba 8-32 veces más eficiente en comparación con el método base de RL. RL^V también exhibe fuertes capacidades de generalización tanto para tareas de fácil a difícil como para tareas fuera del dominio. Además, RL^V logra un rendimiento 1.2-1.6 veces mayor al escalar conjuntamente el cómputo en tiempo de prueba en paralelo y secuencial con un modelo de razonamiento largo R1.
La selección de datos para el ajuste por instrucciones es esencial para mejorar el rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y reducir los costos de entrenamiento. Sin embargo, los métodos automatizados de selección existentes dependen ya sea de medidas basadas en gradientes computacionalmente costosas o de heurísticas diseñadas manualmente, lo que puede no explotar completamente los atributos intrínsecos de los datos. En este artículo, proponemos Aprendizaje en Contexto para la Medición de Contribución (ICon, por sus siglas en inglés), un método novedoso libre de gradientes que aprovecha la naturaleza implícita del ajuste fino del aprendizaje en contexto (ICL, por sus siglas en inglés) para medir la contribución de las muestras sin necesidad de cálculos de gradientes o ingeniería manual de indicadores. ICon ofrece una alternativa computacionalmente eficiente a los métodos basados en gradientes y reduce el sesgo inductivo humano inherente en los enfoques basados en heurísticas. ICon consta de tres componentes e identifica datos de alta contribución evaluando cambios en el rendimiento bajo aprendizaje implícito a través de ICL. Experimentos extensos en tres LLMs a lo largo de 12 benchmarks y 5 conjuntos de evaluación por pares demuestran la efectividad de ICon. Notablemente, en LLaMA3.1-8B, los modelos entrenados con el 15% de los datos seleccionados por ICon superan a los conjuntos de datos completos en 5.42 puntos porcentuales y exceden el mejor rendimiento de los métodos de selección ampliamente utilizados en 2.06 puntos porcentuales. Además, analizamos las muestras de alta contribución seleccionadas por ICon, las cuales muestran tanto tareas diversas como niveles de dificultad apropiados, en lugar de solo las más difíciles.
Las capacidades de razonamiento de los modelos de lenguaje grandes se estudian principalmente en inglés, incluso cuando los modelos preentrenados son multilingües. En este trabajo, investigamos hasta qué punto el ajuste fino de razonamiento en inglés con cadenas largas de pensamiento (CoTs, por sus siglas en inglés) puede generalizarse a través de idiomas. Primero, encontramos que escalar el cómputo de inferencia para modelos de lenguaje de razonamiento (RLMs) centrados en inglés mejora el razonamiento matemático multilingüe en muchos idiomas, incluidos los de bajos recursos, hasta el punto de superar a modelos del doble de su tamaño. Segundo, revelamos que, aunque las CoTs de los RLMs centrados en inglés son predominantemente en inglés, siguen consistentemente un patrón de "citar y pensar" para razonar sobre entradas no inglesas citadas. Tercero, descubrimos una estrategia efectiva para controlar el idioma del razonamiento con CoTs largas, y observamos que los modelos razonan mejor y de manera más eficiente en idiomas de altos recursos. Finalmente, observamos una generalización deficiente del razonamiento fuera del dominio, en particular desde STEM hacia el conocimiento cultural de sentido común, incluso para el inglés. En general, demostramos los potenciales, estudiamos los mecanismos y delineamos las limitaciones de la generalización translingüística del escalado en tiempo de prueba del razonamiento en inglés. Concluimos que los profesionales deberían permitir que los RLMs centrados en inglés razonen en idiomas de altos recursos, mientras que se necesita más trabajo para mejorar el razonamiento en idiomas de bajos recursos y en contextos fuera del dominio.
El desaprendizaje en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) es crucial en aplicaciones del mundo real donde es necesario eliminar de manera eficiente la influencia de datos privados, protegidos por derechos de autor o dañinos de algunos usuarios. Sin embargo, las métricas existentes centradas en la utilidad (basadas en la utilidad del modelo) pueden fallar al evaluar con precisión el alcance del desaprendizaje en escenarios realistas, como cuando (a) los conjuntos de datos a olvidar y retener tienen contenido semánticamente similar, (b) reentrenar el modelo desde cero con el conjunto de retención es poco práctico, y/o (c) el propietario del modelo puede mejorar la métrica de desaprendizaje sin realizar directamente el desaprendizaje en el LLM. Este artículo presenta la primera métrica de desaprendizaje centrada en datos para LLMs, llamada WaterDrum, que aprovecha la marca de agua de texto robusta para superar estas limitaciones. También introducimos nuevos conjuntos de datos de referencia para el desaprendizaje en LLMs que contienen distintos niveles de puntos de datos similares y pueden usarse para evaluar rigurosamente algoritmos de desaprendizaje utilizando WaterDrum. Nuestro código está disponible en https://github.com/lululu008/WaterDrum y nuestros nuevos conjuntos de datos de referencia se publican en https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
El razonamiento en cadena (Chain-of-Thoughts, CoT) requiere que los modelos de lenguaje de gran escala (LLMs) generen pasos intermedios antes de llegar a la respuesta final, y ha demostrado ser efectivo para ayudar a los LLMs a resolver tareas de razonamiento complejo. Sin embargo, el mecanismo interno del CoT sigue siendo en gran medida desconocido. En este artículo, estudiamos empíricamente el papel de los tokens de CoT en los LLMs en dos tareas composicionales: multiplicación de múltiples dígitos y programación dinámica. Aunque el CoT es esencial para resolver estos problemas, encontramos que preservar solo los tokens que almacenan resultados intermedios lograría un rendimiento comparable. Además, observamos que almacenar resultados intermedios en una forma latente alternativa no afectará el rendimiento del modelo. También intervenimos aleatoriamente algunos valores en el CoT y notamos que los tokens de CoT posteriores y la respuesta final cambiarían en consecuencia. Estos hallazgos sugieren que los tokens de CoT pueden funcionar como variables en programas de computadora, pero con posibles desventajas como atajos no intencionados y límites de complejidad computacional entre tokens. El código y los datos están disponibles en https://github.com/solitaryzero/CoTs_are_Variables.
Los modelos Visión-Lenguaje-Acción (VLA) representan un avance transformador en la inteligencia artificial, con el objetivo de unificar la percepción, la comprensión del lenguaje natural y la acción corporizada dentro de un único marco computacional. Esta revisión fundamental presenta una síntesis exhaustiva de los avances recientes en los modelos Visión-Lenguaje-Acción, organizados sistemáticamente en cinco pilares temáticos que estructuran el panorama de este campo en rápida evolución. Comenzamos estableciendo los fundamentos conceptuales de los sistemas VLA, rastreando su evolución desde arquitecturas de aprendizaje multimodal hasta agentes generalistas que integran estrechamente modelos de visión-lenguaje (VLM), planificadores de acciones y controladores jerárquicos. Nuestra metodología adopta un marco riguroso de revisión de literatura, abarcando más de 80 modelos VLA publicados en los últimos tres años. Las áreas clave de progreso incluyen innovaciones arquitectónicas, estrategias de entrenamiento eficientes en parámetros y aceleraciones de inferencia en tiempo real. Exploramos diversos dominios de aplicación, como la robótica humanoide, los vehículos autónomos, la robótica médica e industrial, la agricultura de precisión y la navegación en realidad aumentada. La revisión aborda además los principales desafíos en el control en tiempo real, la representación multimodal de acciones, la escalabilidad del sistema, la generalización a tareas no vistas y los riesgos éticos en su implementación. Basándonos en el estado del arte, proponemos soluciones específicas que incluyen la adaptación de IA agentica, la generalización entre diferentes corporizaciones y la planificación neuro-simbólica unificada. En nuestra discusión prospectiva, delineamos una hoja de ruta futura en la que los modelos VLA, los VLM y la IA agentica convergen para impulsar agentes corporizados socialmente alineados, adaptativos y de propósito general. Este trabajo sirve como referencia fundamental para avanzar en la robótica inteligente del mundo real y la inteligencia artificial general. >Visión-lenguaje-acción, IA agentica, Agentes de IA, Modelos de visión-lenguaje
La correspondencia robusta y eficiente de características locales juega un papel crucial en aplicaciones como SLAM y localización visual para robótica. A pesar de los grandes avances, sigue siendo muy desafiante extraer características visuales robustas y discriminativas en escenarios con cambios drásticos de iluminación, áreas de baja textura o patrones repetitivos. En este artículo, proponemos una nueva red ligera llamada LiftFeat, que mejora la robustez del descriptor crudo mediante la agregación de características geométricas 3D. Específicamente, primero adoptamos un modelo preentrenado de estimación de profundidad monocular para generar etiquetas pseudo normales de superficie, supervisando la extracción de características geométricas 3D en términos de la normal de superficie predicha. Luego, diseñamos un módulo de mejora de características consciente de la geometría 3D para fusionar la característica de normal de superficie con la característica del descriptor 2D crudo. La integración de dicha característica geométrica 3D mejora la capacidad discriminativa de la descripción de características 2D en condiciones extremas. Los resultados experimentales extensivos en tareas de estimación de pose relativa, estimación de homografía y localización visual demuestran que nuestro LiftFeat supera a algunos métodos ligeros de última generación. El código se publicará en: https://github.com/lyp-deeplearning/LiftFeat.
La alineación de modelos de lenguaje con preferencias humanas depende de conjuntos de datos de preferencias por pares. Mientras que algunos estudios sugieren que los datos on-policy superan consistentemente a los datos off-policy en el aprendizaje de preferencias, otros indican que las ventajas de los datos on-policy pueden depender de la tarea, destacando la necesidad de una exploración sistemática de su interacción. En este trabajo, demostramos que los datos on-policy y off-policy ofrecen fortalezas complementarias en la optimización de preferencias: los datos on-policy son particularmente efectivos para tareas de razonamiento como matemáticas y programación, mientras que los datos off-policy funcionan mejor en tareas abiertas como la escritura creativa y la realización de recomendaciones personales. Guiados por estos hallazgos, presentamos SIMPLEMIX, un enfoque para combinar las fortalezas complementarias del aprendizaje de preferencias on-policy y off-policy mediante la simple mezcla de estas dos fuentes de datos. Nuestros resultados empíricos en diversas tareas y benchmarks demuestran que SIMPLEMIX mejora sustancialmente la alineación de los modelos de lenguaje. Específicamente, SIMPLEMIX supera a DPO on-policy y DPO off-policy en un promedio de 6.03% en Alpaca Eval 2.0. Además, supera enfoques previos mucho más complejos en la combinación de datos on-policy y off-policy, como HyPO y DPO-Mix-P, en un promedio de 3.05%.
A medida que los modelos de lenguaje de gran escala (LLMs) evolucionan hacia agentes que utilizan herramientas, la capacidad de navegar por la web en tiempo real se ha convertido en un criterio fundamental para medir su competencia en razonamiento y recuperación de información. Los puntos de referencia existentes, como BrowseComp, se centran en el inglés y pasan por alto las complejidades lingüísticas, de infraestructura y relacionadas con la censura de otros ecosistemas de información importantes, especialmente el chino. Para abordar esta brecha, presentamos BrowseComp-ZH, un punto de referencia de alta dificultad diseñado específicamente para evaluar de manera integral a los agentes LLM en la web china. BrowseComp-ZH consta de 289 preguntas de múltiples saltos que abarcan 11 dominios diversos. Cada pregunta se ha diseñado a partir de una respuesta corta, objetiva y fácilmente verificable (por ejemplo, una fecha, un número o un nombre propio). Se aplica un protocolo de control de calidad de dos etapas para garantizar una alta dificultad en las preguntas y la unicidad de las respuestas. Evaluamos más de 20 modelos de lenguaje y sistemas de búsqueda agentes de última generación en nuestro BrowseComp-ZH propuesto. A pesar de sus fuertes capacidades conversacionales y de recuperación, la mayoría de los modelos tienen dificultades severas: un gran número obtiene tasas de precisión inferiores al 10%, y solo unos pocos superan el 20%. Incluso el sistema con mejor rendimiento, DeepResearch de OpenAI, alcanza solo un 42,9%. Estos resultados demuestran la considerable dificultad de BrowseComp-ZH, donde el éxito exige no solo estrategias de recuperación efectivas, sino también un razonamiento sofisticado y una reconciliación de información, capacidades que los modelos actuales aún tienen dificultades para dominar. Nuestro conjunto de datos, las pautas de construcción y los resultados del punto de referencia se han publicado públicamente en https://github.com/PALIN2018/BrowseComp-ZH.