Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm acelerado o progresso em PLN financeiro e aplicações, mas os benchmarks existentes ainda se limitam a configurações monolíngues e unimodais, muitas vezes dependendo excessivamente de tarefas simples e falhando em refletir a complexidade da comunicação financeira do mundo real. Apresentamos o MultiFinBen, o primeiro benchmark multilíngue e multimodal projetado para o domínio financeiro global, avaliando LLMs em diversas modalidades (texto, visão, áudio) e contextos linguísticos (monolíngue, bilíngue, multilíngue) em tarefas específicas do domínio. Introduzimos duas novas tarefas, incluindo PolyFiQA-Easy e PolyFiQA-Expert, os primeiros benchmarks financeiros multilíngues que exigem que os modelos realizem raciocínio complexo sobre entradas em idiomas mistos; e EnglishOCR e SpanishOCR, as primeiras tarefas de QA financeiro incorporando OCR, desafiando os modelos a extrair e raciocinar sobre informações de documentos financeiros com texto visual. Além disso, propomos um mecanismo de seleção dinâmico e consciente da dificuldade, e criamos um benchmark compacto e equilibrado, em vez de uma simples agregação de conjuntos de dados existentes. Uma avaliação extensa de 22 modelos state-of-the-art revela que mesmo os modelos mais fortes, apesar de suas capacidades gerais multimodais e multilíngues, lutam dramaticamente quando confrontados com tarefas complexas de cruzamento de idiomas e multimodais no domínio financeiro. O MultiFinBen é lançado publicamente para promover um progresso transparente, reproduzível e inclusivo em estudos e aplicações financeiras.
A escalação do poder de computação durante o tempo de teste tem demonstrado sucesso notável na melhoria das habilidades de raciocínio de grandes modelos de linguagem (LLMs). Neste trabalho, realizamos a primeira exploração sistemática da aplicação de métodos de escalação no tempo de teste a agentes de linguagem e investigamos até que ponto isso melhora sua eficácia. Especificamente, exploramos diferentes estratégias de escalação no tempo de teste, incluindo: (1) algoritmos de amostragem paralela; (2) estratégias de revisão sequencial; (3) verificadores e métodos de fusão; (4) estratégias para diversificar execuções. Analisamos e abrimos cuidadosamente o impacto de diferentes estratégias de design na aplicação da escalação no tempo de teste em agentes de linguagem, e obtivemos as seguintes conclusões: 1. A escalação do poder de computação no tempo de teste pode melhorar o desempenho dos agentes. 2. Saber quando refletir é importante para os agentes. 3. Entre diferentes abordagens de verificação e fusão de resultados, o método baseado em lista apresenta o melhor desempenho. 4. Aumentar a diversificação das execuções exerce um efeito positivo no desempenho das tarefas do agente.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) áudio-texto abriram novas possibilidades para a compreensão e geração de música. No entanto, os benchmarks existentes são limitados em escopo, frequentemente dependendo de tarefas simplificadas ou avaliações de múltipla escolha que não refletem a complexidade da análise musical do mundo real. Reinterpretamos uma ampla gama de anotações tradicionais de MIR (Music Information Retrieval) como formatos de seguimento de instruções e introduzimos o CMI-Bench, um benchmark abrangente de seguimento de instruções musicais projetado para avaliar LLMs áudio-texto em um conjunto diversificado de tarefas de MIR. Estas incluem classificação de gênero, regressão de emoção, etiquetagem de emoção, classificação de instrumentos, estimativa de tom, detecção de tonalidade, transcrição de letras, extração de melodia, reconhecimento de técnica vocal, detecção de técnica de performance instrumental, etiquetagem musical, legendagem de música e rastreamento de batidas (downbeats): refletindo os principais desafios na pesquisa de MIR. Diferente de benchmarks anteriores, o CMI-Bench adota métricas de avaliação padronizadas consistentes com os modelos MIR state-of-the-art anteriores, garantindo comparabilidade direta com abordagens supervisionadas. Fornecemos um kit de ferramentas de avaliação que suporta todos os LLMs áudio-textuais de código aberto, incluindo LTU, Qwen-audio, SALMONN, MusiLingo, etc. Os resultados dos experimentos revelam lacunas significativas de desempenho entre LLMs e modelos supervisionados, juntamente com seus vieses culturais, cronológicos e de gênero, destacando o potencial e as limitações dos modelos atuais na abordagem de tarefas de MIR. O CMI-Bench estabelece uma base unificada para avaliar o seguimento de instruções musicais, impulsionando o progresso em LLMs conscientes de música.
Modelos de Difusão de Linguagem de Grande Escala, ou LLMs de difusão, emergiram como um foco significativo na pesquisa em PLN, com esforços substanciais direcionados para compreender sua escalabilidade e desempenho em tarefas subsequentes. No entanto, suas capacidades de contexto longo permanecem inexploradas, carecendo de análise sistemática ou métodos para extensão de contexto. Neste trabalho, apresentamos a primeira investigação sistemática comparando o desempenho de contexto longo entre LLMs de difusão e LLMs auto-regressivos tradicionais. Primeiro, identificamos uma característica única dos LLMs de difusão: ao contrário dos LLMs auto-regressivos, eles mantêm uma \textit{perplexidade notavelmente estável} durante a extrapolação direta de contexto. Além disso, enquanto modelos auto-regressivos falham completamente na tarefa Needle-In-A-Haystack com contextos que excedem seu comprimento pré-treinado, descobrimos que os LLMs de difusão exibem um fenômeno distinto de \textit{percepção local}, permitindo a recuperação bem-sucedida de segmentos recentes do contexto. Explicamos ambos os fenômenos através da teoria de escalonamento de Embeddings de Posição Rotativa (RoPE). Com base nessas observações, propomos o LongLLaDA, um método sem treinamento que integra o LLaDA com a extrapolação RoPE baseada em NTK. Nossos resultados validam que as leis de escalonamento de extrapolação estabelecidas permanecem eficazes para estender as janelas de contexto dos LLMs de difusão. Além disso, identificamos tarefas de contexto longo onde os LLMs de difusão superam os LLMs auto-regressivos e outras onde eles ficam aquém. Consequentemente, este estudo estabelece o primeiro método de extrapolação de contexto para LLMs de difusão, ao mesmo tempo em que fornece insights teóricos essenciais e benchmarks empíricos críticos para avançar pesquisas futuras sobre LLMs de difusão de contexto longo.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) surgiu como um paradigma promissor para avançar as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, um paradoxo crítico obscurece sua eficácia: modelos ajustados com RLVR frequentemente têm desempenho inferior aos modelos base na métrica Pass@K para encontrar soluções, levando à hipótese de que o RLVR apenas reajusta os caminhos de raciocínio existentes em detrimento da diversidade de raciocínio. Neste trabalho, resolvemos essa contradição ao identificar a origem do problema: a métrica Pass@K em si é uma medida falha de raciocínio, pois credita respostas finais corretas que provavelmente surgem de cadeias de pensamento (CoTs) imprecisas ou incompletas. Para abordar isso, introduzimos uma métrica de avaliação mais precisa, CoT-Pass@K, que exige que tanto o caminho de raciocínio quanto a resposta final estejam corretos. Fornecemos uma nova base teórica que formaliza como o RLVR, ao contrário do RL tradicional, é estruturado de forma única para incentivar a integridade lógica. Nossos resultados empíricos são favoráveis: usando CoT-Pass@K, observamos que o RLVR pode incentivar a generalização do raciocínio correto para todos os valores de K. Além disso, ao analisar a dinâmica de treinamento, descobrimos que essa capacidade aprimorada de raciocínio emerge cedo no processo de treinamento e se generaliza suavemente. Nosso trabalho oferece uma perspectiva clara sobre o papel do RLVR, propõe um método mais confiável para sua avaliação e confirma seu potencial para avançar genuinamente o raciocínio das máquinas.
Apesar dos avanços impressionantes no raciocínio complexo, os grandes modelos de linguagem (LLMs) atuais geralmente operam de forma isolada - tratando cada problema como uma tentativa independente, sem acumular ou integrar conhecimento experiencial. Em contraste, solucionadores de problemas especializados - como equipes de olimpíadas ou competições de programação - aproveitam um rico conjunto de experiências: absorvendo mentoria de treinadores, desenvolvendo intuição a partir de problemas passados, utilizando conhecimento sobre o uso de ferramentas e funcionalidades de bibliotecas, adaptando estratégias com base na expertise e experiências de colegas, refinando continuamente seu raciocínio por meio de tentativa e erro, e aprendendo com outros problemas relacionados, mesmo durante competições. Apresentamos o Xolver, uma estrutura de raciocínio multiagente sem necessidade de treinamento que equipa um LLM de caixa preta com uma memória persistente e evolutiva de experiência holística. O Xolver integra diversas modalidades de experiência, incluindo recuperação externa e automática, uso de ferramentas, interações colaborativas, avaliação conduzida por agentes e refinamento iterativo. Ao aprender estratégias relevantes, fragmentos de código e padrões de raciocínio abstrato durante a inferência, o Xolver evita gerar soluções do zero - marcando uma transição da inferência isolada para agentes de linguagem conscientes da experiência. Construído tanto em modelos de peso aberto quanto proprietários, o Xolver consistentemente supera agentes de raciocínio especializados. Mesmo com backbones leves (por exemplo, QWQ-32B), ele frequentemente ultrapassa modelos avançados, incluindo Qwen3-235B, Gemini 2.5 Pro, o3 e o4-mini-high. Com o o3-mini-high, ele alcança novos melhores resultados no GSM8K (98,1%), AIME'24 (94,4%), AIME'25 (93,7%), Math-500 (99,8%) e LiveCodeBench-V5 (91,6%) - destacando o aprendizado de experiência holística como um passo crucial para agentes generalistas capazes de raciocínio em nível especializado. Código e dados estão disponíveis em https://kagnlp.github.io/xolver.github.io/.
A Extração de Informação Visual (VIE) converte imagens de documentos não estruturados em formatos estruturados como JSON, essencial para aplicações médicas como análise de relatórios e consultas online. Métodos tradicionais dependem de OCR e modelos de linguagem, enquanto modelos multimodais de ponta a ponta oferecem geração direta de JSON. No entanto, esquemas específicos de domínio e altos custos de anotação limitam sua eficácia na VIE médica. Nossa abordagem é baseada no framework de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para enfrentar esses desafios utilizando apenas 100 amostras anotadas. Nossa abordagem garante diversidade do conjunto de dados, um mecanismo de recompensa de precisão-recall equilibrado para reduzir alucinações e melhorar a cobertura de campos, e estratégias de amostragem inovadoras para aprimorar as capacidades de raciocínio. Ao ajustar o Qwen2.5-VL-7B com nosso método RLVR, alcançamos desempenho de ponta em tarefas de VIE médica, melhorando significativamente F1, precisão e recall. Embora nossos modelos se destaquem em tarefas semelhantes a conjuntos de dados médicos, o desempenho cai em tarefas dissimilares, destacando a necessidade de otimização específica de domínio. Estudos de caso demonstram ainda mais o valor do raciocínio durante o treinamento e inferência para VIE.
O equilíbrio entre exploração e explotação é um objetivo central no aprendizado por reforço (RL). Apesar dos avanços recentes no aprimoramento do raciocínio de modelos de linguagem (LM), a maioria dos métodos tende à explotação e, cada vez mais, encontra platôs de desempenho. Neste trabalho, revisitamos a entropia — um sinal de exploração no RL — e examinamos sua relação com o raciocínio exploratório em LMs. Por meio de análises empíricas, descobrimos fortes correlações positivas entre regiões de alta entropia e três tipos de ações de raciocínio exploratório: (1) tokens pivôs que determinam ou conectam etapas lógicas, (2) ações reflexivas, como autoverificação e correção, e (3) comportamentos raros pouco explorados pelos LMs base. Motivados por isso, introduzimos uma modificação mínima ao RL padrão com apenas uma linha de código: aumentamos a função de vantagem com um termo baseado em entropia. Diferentemente dos métodos tradicionais de máxima entropia, que incentivam a exploração promovendo incerteza, incentivamos a exploração promovendo cadeias de raciocínio mais longas e profundas. Notavelmente, nosso método alcança ganhos significativos na métrica Pass@K — um estimador de limite superior das capacidades de raciocínio de LMs — mesmo quando avaliado com valores extremamente grandes de K, expandindo os limites do raciocínio de LMs.
Um grande desafio para a IA moderna é aprender a entender o mundo e aprender a agir principalmente por observação. Este artigo explora uma abordagem auto-supervisionada que combina dados de vídeo em escala da internet com uma pequena quantidade de dados de interação (trajetórias de robôs), para desenvolver modelos capazes de entender, prever e planejar no mundo físico. Primeiro, pré-treinamos uma arquitetura de incorporação conjunta preditiva sem ação, V-JEPA 2, em um conjunto de dados de vídeo e imagem que compreende mais de 1 milhão de horas de vídeos da internet. O V-JEPA 2 alcança um desempenho forte na compreensão de movimento (77,3 de precisão top-1 no Something-Something v2) e um desempenho de ponta na antecipação de ações humanas (39,7 de recall-at-5 no Epic-Kitchens-100), superando modelos anteriores específicos para tarefas. Além disso, após alinhar o V-JEPA 2 com um grande modelo de linguagem, demonstramos desempenho de ponta em várias tarefas de questionamento e resposta em vídeo na escala de 8 bilhões de parâmetros (por exemplo, 84,0 no PerceptionTest, 76,9 no TempCompass). Por fim, mostramos como o aprendizado auto-supervisionado pode ser aplicado a tarefas de planejamento robótico pós-treinando um modelo de mundo condicionado por ação latente, V-JEPA 2-AC, usando menos de 62 horas de vídeos de robôs não rotulados do conjunto de dados Droid. Implantamos o V-JEPA 2-AC zero-shot em braços Franka em dois laboratórios diferentes e permitimos a coleta e colocação de objetos usando planejamento com metas de imagem. Notavelmente, isso é alcançado sem coletar nenhum dado dos robôs nesses ambientes, e sem qualquer treinamento ou recompensa específica para a tarefa. Este trabalho demonstra como o aprendizado auto-supervisionado a partir de dados em escala da web e uma pequena quantidade de dados de interação de robôs pode resultar em um modelo de mundo capaz de planejar no mundo físico.
O surgimento de grandes modelos multimodais (LMMs) semelhantes ao GPT-4o tem impulsionado a exploração da integração de modalidades de texto, visão e fala para suportar interações multimodais mais flexíveis. Os LMMs existentes geralmente concatenam as representações das modalidades ao longo da dimensão sequencial e as alimentam em um modelo de linguagem grande (LLM) como backbone. Embora a concatenação na dimensão sequencial seja direta para a integração de modalidades, ela frequentemente depende fortemente de dados em grande escala para aprender alinhamentos entre modalidades. Neste artigo, buscamos modelar as relações entre modalidades de forma mais intencional, alcançando assim alinhamentos de modalidades mais eficientes e flexíveis. Para isso, propomos o Stream-Omni, um grande modelo de linguagem-visão-fala com alinhamentos eficientes de modalidades, que pode suportar simultaneamente interações sob várias combinações de modalidades. O Stream-Omni emprega um LLM como backbone e alinha a visão e a fala ao texto com base em suas relações. Para a visão, que é semanticamente complementar ao texto, o Stream-Omni utiliza a concatenação na dimensão sequencial para alcançar o alinhamento visão-texto. Para a fala, que é semanticamente consistente com o texto, o Stream-Omni introduz um mapeamento baseado em CTC na dimensão de camadas para alcançar o alinhamento fala-texto. Dessa forma, o Stream-Omni pode alcançar alinhamentos de modalidades com menos dados (especialmente de fala), permitindo a transferência de capacidades de texto para outras modalidades. Experimentos em vários benchmarks demonstram que o Stream-Omni alcança um desempenho robusto em tarefas de compreensão visual, interação por fala e interação por fala baseada em visão. Graças ao mapeamento na dimensão de camadas, o Stream-Omni pode fornecer simultaneamente saídas de texto intermediárias (como transcrições ASR e respostas do modelo) durante a interação por fala, oferecendo aos usuários uma experiência multimodal abrangente.
Modelos baseados em difusão e fluxo emergiram como abordagens de última geração para modelagem generativa, mas exigem muitas etapas de amostragem. Modelos de consistência podem destilar esses modelos em geradores eficientes de uma única etapa; no entanto, ao contrário dos métodos baseados em fluxo e difusão, seu desempenho inevitavelmente se degrada ao aumentar o número de etapas, o que demonstramos tanto analiticamente quanto empiricamente. Mapas de fluxo generalizam essas abordagens ao conectar quaisquer dois níveis de ruído em uma única etapa e permanecem eficazes em todas as contagens de etapas. Neste artigo, introduzimos dois novos objetivos de tempo contínuo para treinar mapas de fluxo, juntamente com técnicas de treinamento adicionais e inovadoras, generalizando os objetivos existentes de consistência e correspondência de fluxo. Além disso, demonstramos que a autoguiada pode melhorar o desempenho, utilizando um modelo de baixa qualidade para orientação durante a destilação, e um impulso adicional pode ser alcançado por meio de ajuste fino adversário, com perda mínima na diversidade de amostras. Validamos extensivamente nossos modelos de mapa de fluxo, chamados Align Your Flow, em benchmarks desafiadores de geração de imagens e alcançamos desempenho de última geração em geração de poucas etapas tanto no ImageNet 64x64 quanto no 512x512, utilizando redes neurais pequenas e eficientes. Por fim, mostramos modelos de mapa de fluxo de texto para imagem que superam todos os amostradores de poucas etapas existentes não treinados adversariamente em síntese condicionada por texto.
Avanços recentes nos modelos de raciocínio de Cadeia Longa de Pensamento (CoT, na sigla em inglês) têm melhorado o desempenho em tarefas complexas, mas eles sofrem com o excesso de pensamento, que gera etapas de raciocínio redundantes, especialmente para perguntas simples. Este artigo revisita os padrões de raciocínio dos modelos de CoT Longa e Curta, observando que os padrões de CoT Curta oferecem raciocínio conciso de forma eficiente, enquanto os padrões de CoT Longa se destacam em cenários desafiadores onde os padrões de CoT Curta têm dificuldades. Para permitir que os modelos aproveitem ambos os padrões, propomos o Ajuste Fino Sem Pergunta (QFFT, na sigla em inglês), uma abordagem de ajuste fino que remove a pergunta de entrada durante o treinamento e aprende exclusivamente a partir de respostas de CoT Longa. Essa abordagem permite que o modelo empregue adaptativamente ambos os padrões de raciocínio: ele prioriza os padrões de CoT Curta e ativa os padrões de CoT Longa apenas quando necessário. Experimentos em diversos conjuntos de dados matemáticos demonstram que o QFFT reduz o comprimento médio das respostas em mais de 50%, ao mesmo tempo que alcança desempenho comparável ao Ajuste Fino Supervisionado (SFT, na sigla em inglês). Além disso, o QFFT exibe desempenho superior em comparação ao SFT em cenários ruidosos, fora do domínio e com poucos recursos.
Apresentamos o TestCase-Eval, um novo benchmark para avaliação sistemática de LLMs na geração de casos de teste. O TestCase-Eval inclui 500 problemas de algoritmos e 100.000 soluções criadas por humanos da plataforma Codeforces. Ele se concentra em duas tarefas fundamentais: (1) Cobertura de Falhas, que mede o quão bem os conjuntos de testes gerados por LLMs exploram cenários de entrada diversos e cobrem uma ampla gama de modos de falha potenciais. (2) Exposição de Falhas, que avalia se os LLMs conseguem criar uma entrada de teste personalizada que revele uma implementação de código incorreta específica. Fornecemos uma avaliação abrangente de 19 LLMs de última geração, tanto de código aberto quanto proprietários, no TestCase-Eval, oferecendo insights sobre seus pontos fortes e limitações na geração de casos de teste eficazes para problemas de algoritmos.
A tokenização impõe uma granularidade fixa no texto de entrada, congelando como um modelo de linguagem opera sobre os dados e quão longe no futuro ele prevê. O Byte Pair Encoding (BPE) e esquemas semelhantes dividem o texto uma vez, constroem um vocabulário estático e deixam o modelo preso a essa escolha. Relaxamos essa rigidez ao introduzir uma U-Net autorregressiva que aprende a incorporar seus próprios tokens durante o treinamento. A rede lê bytes brutos, agrupa-os em palavras, depois em pares de palavras e, em seguida, em até 4 palavras, proporcionando uma visão multiescala da sequência. Em estágios mais profundos, o modelo deve prever mais adiante no futuro — antecipando as próximas palavras em vez do próximo byte —, então os estágios mais profundos focam em padrões semânticos mais amplos, enquanto os estágios iniciais lidam com detalhes mais finos. Ao ajustar e controlar cuidadosamente o cálculo de pré-treinamento, hierarquias rasas empatam com fortes baselines de BPE, e hierarquias mais profundas mostram uma tendência promissora. Como a tokenização agora reside dentro do modelo, o mesmo sistema pode lidar com tarefas em nível de caractere e transferir conhecimento entre idiomas de baixos recursos.
Modelos de Raciocínio de Grande Escala (LRMs) têm alcançado sucesso notável, mas frequentemente sofrem com a produção de cadeias de raciocínio desnecessárias e verbosas. Identificamos um aspecto central desse problema como "pensamento inválido" — os modelos tendem a verificar repetidamente seu trabalho após terem derivado a resposta correta. Para abordar essa ineficiência específica, vamos além dos princípios gerais de Eficácia e Eficiência para propor dois novos princípios mais refinados: Brevidade, que defende a eliminação de redundâncias, e Suficiência, que garante a preservação de etapas críticas de raciocínio. Guiados por esses princípios, introduzimos o LC-R1, um método de pós-treinamento baseado na Otimização de Política Relativa em Grupo (GRPO). O LC-R1 emprega uma combinação inovadora de uma Recompensa de Comprimento para concisão geral e uma Recompensa de Compressão especificamente projetada para remover a porção inválida do processo de pensamento. Experimentos extensos em múltiplos benchmarks de raciocínio demonstram que o LC-R1 alcança uma redução significativa no comprimento da sequência (~50%) com apenas uma queda marginal (~2%) na precisão, atingindo um ponto favorável na fronteira de Pareto que prioriza alta compressão. Nossa análise valida ainda mais a robustez do LC-R1 e fornece insights valiosos para o desenvolvimento de LRMs mais poderosos e computacionalmente eficientes. Nosso código está disponível em https://github.com/zxiangx/LC-R1.
O ecossistema de hardware está evoluindo rapidamente, com um interesse crescente em traduzir programas de baixo nível entre diferentes arquiteturas de conjunto de instruções (ISAs) de forma rápida, flexível e correta, para melhorar a portabilidade e longevidade do código existente. Uma classe particularmente desafiadora desse problema de transpilação é a tradução entre arquiteturas de hardware complexas (CISC) e reduzidas (RISC), devido a diferenças fundamentais na complexidade das instruções, modelos de memória e paradigmas de execução. Neste trabalho, apresentamos o GG (Guaranteed Guess), um pipeline de transpilação centrado em ISA que combina o poder de tradução de modelos de linguagem pré-treinados de grande escala (LLMs) com o rigor de construções estabelecidas de testes de software. Nosso método gera traduções candidatas usando um LLM de uma ISA para outra e incorpora essas traduções em um framework de testes de software para construir confiança quantificável na tradução. Avaliamos nossa abordagem GG em dois conjuntos de dados diversos, aplicamos alta cobertura de código (>98%) em testes unitários e alcançamos correção funcional/semântica de 99% em programas HumanEval e 49% em programas BringupBench, respectivamente. Além disso, comparamos nossa abordagem com o estado da arte do framework Rosetta 2 no Apple Silicon, demonstrando um desempenho de tempo de execução 1,73x mais rápido, eficiência energética 1,47x melhor e uso de memória 2,41x melhor para nosso código transpilado, mostrando a eficácia do GG em tarefas reais de tradução CISC para RISC. Disponibilizaremos nossos códigos, dados, modelos e benchmarks em código aberto para estabelecer uma base comum para pesquisas em tradução de código em nível de ISA.
Modelos Visão-Linguagem-Ação (VLA), particularmente arquiteturas baseadas em difusão, demonstram potencial transformador para inteligência incorporada, mas são severamente limitados pelas altas demandas computacionais e de memória decorrentes de redundâncias intrínsecas e durante a inferência. Embora os esforços existentes de aceleração frequentemente visem ineficiências isoladas, tais soluções fragmentadas geralmente falham em abordar de forma holística os diversos gargalos computacionais e de memória em todo o pipeline VLA, limitando assim a viabilidade prática de implantação. Apresentamos o EfficientVLA, uma estrutura de aceleração de inferência estruturada e livre de treinamento que elimina sistematicamente essas barreiras ao explorar de forma coesa redundâncias multifacetadas. O EfficientVLA integra sinergicamente três estratégias direcionadas: (1) poda de camadas funcionalmente inconsequentes do módulo de linguagem, guiada por uma análise de redundâncias entre camadas; (2) otimização do caminho de processamento visual por meio de uma estratégia consciente da tarefa que seleciona um conjunto compacto e diversificado de tokens visuais, equilibrando criticidade da tarefa com cobertura informacional; e (3) redução da redundância computacional temporal dentro da cabeça de ação iterativa baseada em difusão, armazenando e reutilizando estrategicamente características intermediárias-chave. Aplicamos nosso método ao modelo VLA padrão CogACT, obtendo um aumento de velocidade de inferência de 1,93X e reduzindo os FLOPs para 28,9%, com apenas uma queda de 0,6% na taxa de sucesso no benchmark SIMPLER.
A capacidade dos grandes modelos de linguagem (LLMs) de utilizar ferramentas externas tem permitido que eles abordem uma gama cada vez mais diversificada de tarefas. No entanto, à medida que as tarefas se tornam mais complexas e de longo prazo, o intrincado processo de utilização de ferramentas pode desencadear diversos erros inesperados. Portanto, como lidar efetivamente com esses erros, incluindo identificá-los, diagnosticá-los e recuperar-se deles, tornou-se uma direção de pesquisa fundamental para o avanço do aprendizado de ferramentas. Neste trabalho, primeiro analisamos extensivamente os tipos de erros encontrados durante o processo de chamada de função em vários benchmarks competitivos de avaliação de ferramentas. Com base nisso, introduzimos o CRITICTOOL, um benchmark abrangente de avaliação crítica especializado para o aprendizado de ferramentas. Construído sobre uma nova estratégia evolutiva para a construção de conjuntos de dados, o CRITICTOOL contém diversos erros de uso de ferramentas com variadas complexidades, o que reflete melhor cenários do mundo real. Realizamos experimentos extensivos no CRITICTOOL e validamos a generalização e eficácia da nossa estratégia de construção de benchmark. Também fornecemos uma análise aprofundada da capacidade de reflexão sobre ferramentas em vários LLMs, oferecendo uma nova perspectiva no campo do aprendizado de ferramentas em LLMs. O código está disponível em https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
A localização espaço-temporal é crucial para interações precisas em diversos domínios, desde pesquisas biológicas até navegação autônoma e interfaces interativas. As abordagens atuais baseadas em vídeo, embora proficientes em rastreamento, carecem das sofisticadas capacidades de raciocínio dos grandes modelos de linguagem, limitando sua compreensão contextual e generalização. Apresentamos o VideoMolmo, um grande modelo multimodal projetado para apontamento espaço-temporal refinado condicionado a descrições textuais. Construído sobre a arquitetura Molmo, o VideoMolmo incorpora um módulo temporal que utiliza um mecanismo de atenção para condicionar cada quadro aos quadros anteriores, garantindo consistência temporal. Além disso, nosso novo pipeline de fusão de máscaras temporais emprega o SAM2 para propagação bidirecional de pontos, melhorando significativamente a coerência ao longo das sequências de vídeo. Essa decomposição em duas etapas, ou seja, primeiro usando o LLM para gerar coordenadas precisas de apontamento e, em seguida, confiando em um módulo sequencial de fusão de máscaras para produzir segmentação coerente, não apenas simplifica a tarefa para o modelo de linguagem, mas também aumenta a interpretabilidade. Devido à falta de conjuntos de dados adequados, organizamos um conjunto de dados abrangente composto por 72k pares de vídeo-legenda anotados com 100k pontos de objetos. Para avaliar a generalização do VideoMolmo, introduzimos o VPoS-Bench, um benchmark desafiador de fora da distribuição que abrange cinco cenários do mundo real: Rastreamento de Células, Visão Egocêntrica, Condução Autônoma, Interação Vídeo-GUI e Robótica. Também avaliamos nosso modelo nas tarefas de Segmentação de Objetos em Vídeo com Referência (Refer-VOS) e Segmentação de Objetos em Vídeo com Raciocínio (Reasoning VOS). Em comparação com os modelos existentes, o VideoMolmo melhora substancialmente a precisão do apontamento espaço-temporal e a capacidade de raciocínio. Nosso código e modelos estão publicamente disponíveis em https://github.com/mbzuai-oryx/VideoMolmo.
Apresentamos o Ring-lite, um modelo de linguagem de grande escala baseado em Mistura de Especialistas (MoE) otimizado por meio de aprendizado por reforço (RL) para alcançar capacidades de raciocínio eficientes e robustas. Construído sobre o modelo Ling-lite, disponível publicamente, um modelo com 16,8 bilhões de parâmetros e 2,75 bilhões de parâmetros ativados, nossa abordagem iguala o desempenho dos modelos de raciocínio em pequena escala mais avançados (SOTA) em benchmarks desafiadores (por exemplo, AIME, LiveCodeBench, GPQA-Diamond) enquanto ativa apenas um terço dos parâmetros exigidos por modelos comparáveis. Para isso, introduzimos um pipeline de treinamento conjunto que integra destilação com RL, revelando desafios não documentados no treinamento de RL com MoE. Primeiro, identificamos instabilidade de otimização durante o treinamento de RL e propomos o Constrained Contextual Computation Policy Optimization (C3PO), uma abordagem inovadora que melhora a estabilidade do treinamento e aumenta a produtividade computacional por meio de uma metodologia de co-design algoritmo-sistema. Segundo, demonstramos empiricamente que a seleção de checkpoints de destilação com base na perda de entropia para o treinamento de RL, em vez de métricas de validação, resulta em melhores trade-offs de desempenho-eficiência no treinamento de RL subsequente. Por fim, desenvolvemos um paradigma de treinamento em duas etapas para harmonizar a integração de dados de múltiplos domínios, abordando conflitos de domínio que surgem no treinamento com conjuntos de dados mistos. Disponibilizaremos o modelo, o conjunto de dados e o código.
Apresentamos o xbench, uma suíte de avaliação dinâmica e alinhada a profissões, projetada para preencher a lacuna entre as capacidades dos agentes de IA e a produtividade no mundo real. Embora os benchmarks existentes frequentemente se concentrem em habilidades técnicas isoladas, eles podem não refletir com precisão o valor econômico que os agentes entregam em ambientes profissionais. Para abordar isso, o xbench foca em domínios comercialmente significativos, com tarefas de avaliação definidas por profissionais da indústria. Nosso framework cria métricas que se correlacionam fortemente com o valor de produtividade, permite a previsão do Ajuste Tecnologia-Mercado (TMF, na sigla em inglês) e facilita o acompanhamento das capacidades do produto ao longo do tempo. Como nossas implementações iniciais, apresentamos dois benchmarks: Recrutamento e Marketing. Para Recrutamento, coletamos 50 tarefas de cenários reais de negócios de headhunting para avaliar as habilidades dos agentes em mapeamento de empresas, recuperação de informações e busca de talentos. Para Marketing, avaliamos a capacidade dos agentes de corresponder influenciadores às necessidades dos anunciantes, avaliando seu desempenho em 50 requisitos de anunciantes usando um conjunto selecionado de 836 influenciadores candidatos. Apresentamos os resultados iniciais de avaliação para os principais agentes contemporâneos, estabelecendo uma linha de base para esses domínios profissionais. Nossos conjuntos de avaliação e avaliações, continuamente atualizados, estão disponíveis em https://xbench.org.
Demonstramos como utilizar imagens de baixa qualidade, sintéticas e fora da distribuição para melhorar a qualidade de um modelo de difusão. Geralmente, os modelos de difusão são treinados em conjuntos de dados curados que surgem de pools de dados altamente filtrados da Web e de outras fontes. Mostramos que há um valor imenso nas imagens de menor qualidade que frequentemente são descartadas. Apresentamos o Ambient Diffusion Omni, um framework simples e fundamentado para treinar modelos de difusão que podem extrair sinal de todas as imagens disponíveis durante o treinamento. Nosso framework explora duas propriedades das imagens naturais — o decaimento espectral da lei de potência e a localidade. Primeiro, validamos nosso framework ao treinar com sucesso modelos de difusão com imagens sinteticamente corrompidas por desfoque gaussiano, compressão JPEG e desfoque de movimento. Em seguida, utilizamos nosso framework para alcançar o estado da arte em FID no ImageNet, e mostramos melhorias significativas tanto na qualidade quanto na diversidade das imagens na modelagem generativa de texto para imagem. A percepção central é que o ruído atenua a distorção inicial entre a distribuição de alta qualidade desejada e a distribuição mista que realmente observamos. Fornecemos uma justificativa teórica rigorosa para nossa abordagem ao analisar a compensação entre aprender de dados tendenciosos versus dados não tendenciosos limitados ao longo dos tempos de difusão.
Apresentamos o AgentSynth, um pipeline escalável e econômico para a síntese automática de tarefas de alta qualidade e conjuntos de dados de trajetórias para agentes generalistas de uso computacional. Aproveitando a assimetria de informação, o AgentSynth constrói subtarefas que são simples durante a geração, mas significativamente mais desafiadoras quando compostas em tarefas de longo prazo, permitindo a criação de mais de 6.000 tarefas diversas e realistas. Nosso pipeline começa com um propositor de tarefas baseado em LLM (Large Language Model) guiado por uma persona, seguido por um agente de execução que completa a tarefa e registra a trajetória. Esse processo é repetido iterativamente para formar uma sequência de subtarefas, que são então resumidas por um agente separado em uma tarefa composta de dificuldade controlável. Um ponto forte do AgentSynth é sua capacidade de modular precisamente a complexidade da tarefa variando o número de subtarefas. Avaliações empíricas mostram que os agentes LLM de última geração sofrem uma queda acentuada no desempenho, de 18% de sucesso no nível de dificuldade 1 para apenas 4% no nível 6, destacando a dificuldade e o poder discriminativo do benchmark. Além disso, nosso pipeline alcança um custo médio baixo de \$0,60 por trajetória, ordens de magnitude mais barato que anotações humanas. Nosso código e dados estão disponíveis publicamente em https://github.com/sunblaze-ucb/AgentSynth.
O surgimento rápido de diversos modelos de linguagem de grande escala (LLMs) impulsionou o desenvolvimento de roteadores de LLMs que atribuem consultas de usuários ao modelo mais adequado. No entanto, os roteadores de LLMs existentes geralmente realizam um mapeamento único e unidirecional (ou seja, atribuindo cada consulta a um único modelo isoladamente), o que limita sua capacidade de lidar com tarefas complexas que exigem os pontos fortes complementares de múltiplos LLMs. Neste artigo, apresentamos o Router-R1, uma estrutura baseada em aprendizado por reforço (RL) que formula o roteamento e agregação de múltiplos LLMs como um processo de decisão sequencial. O Router-R1 instancia o próprio roteador como um LLM capaz, aproveitando sua habilidade de raciocínio para intercalar ações de "pensar" (deliberação interna) com ações de "rotear" (invocação dinâmica de modelos) e integra cada resposta em seu contexto em evolução. Para orientar o aprendizado, empregamos uma recompensa leve baseada em regras que inclui recompensas de formato, recompensas de resultado final e uma nova recompensa de custo para otimizar a relação entre desempenho e custo, abrindo um caminho para otimizar essa relação via RL. O Router-R1 também se baseia apenas em descritores simples de modelos, como preço, latência e desempenho de exemplo, permitindo uma forte generalização para seleção de modelos não vistos. Experimentos em sete benchmarks de QA geral e multi-hop mostram que o Router-R1 supera várias linhas de base fortes, alcançando desempenho superior enquanto mantém generalização robusta e gerenciamento de custos. O código está disponível em https://github.com/ulab-uiuc/Router-R1.
Estudamos o desafio de alcançar a recuperação de recursos teoricamente fundamentada usando Autoencoders Esparsos (SAEs) para a interpretação de Modelos de Linguagem de Grande Escala (LLMs). Os algoritmos de treinamento de SAEs existentes frequentemente carecem de garantias matemáticas rigorosas e sofrem com limitações práticas, como sensibilidade a hiperparâmetros e instabilidade. Para abordar esses problemas, primeiro propomos um novo framework estatístico para o problema de recuperação de recursos, que inclui uma nova noção de identificabilidade de recursos ao modelar características polissêmicas como misturas esparsas de conceitos monossêmicos subjacentes. Com base nesse framework, introduzimos um novo algoritmo de treinamento de SAE baseado em "adaptação de viés", uma técnica que ajusta adaptativamente os parâmetros de viés da rede neural para garantir uma esparsidade de ativação adequada. Provamos teoricamente que esse algoritmo recupera corretamente todos os recursos monossêmicos quando os dados de entrada são amostrados a partir do nosso modelo estatístico proposto. Além disso, desenvolvemos uma variante empírica aprimorada, a Adaptação de Viés em Grupo (GBA), e demonstramos seu desempenho superior em comparação com métodos de referência quando aplicada a LLMs com até 1,5 bilhão de parâmetros. Este trabalho representa um passo fundamental na desmistificação do treinamento de SAEs ao fornecer o primeiro algoritmo de SAE com garantias teóricas de recuperação, avançando assim o desenvolvimento de sistemas de IA mais transparentes e confiáveis por meio de uma interpretabilidade mecanicista aprimorada.
Estudamos jailbreaks baseados em sufixos – uma poderosa família de ataques contra modelos de linguagem de grande escala (LLMs) que otimizam sufixos adversariais para contornar o alinhamento de segurança. Focando no amplamente utilizado ataque GCG (Zou et al., 2023), observamos que os sufixos variam em eficácia: alguns são marcadamente mais universais – generalizando para muitas instruções prejudiciais não vistas – do que outros. Primeiro, mostramos que a eficácia do GCG é impulsionada por um mecanismo crítico e superficial, construído sobre o fluxo de informação do sufixo adversarial para os tokens finais do modelo de chat antes da geração. Quantificando a dominância desse mecanismo durante a geração, descobrimos que o GCG sequestra de forma irregular e agressiva o processo de contextualização. Crucialmente, relacionamos esse sequestro ao fenômeno da universalidade, com sufixos mais universais sendo sequestradores mais fortes. Posteriormente, mostramos que essas percepções têm implicações práticas: a universalidade do GCG pode ser eficientemente aprimorada (até 5 vezes em alguns casos) sem custo computacional adicional, e também pode ser mitigada cirurgicamente, reduzindo pelo menos pela metade o sucesso do ataque com perda mínima de utilidade. Disponibilizamos nosso código e dados em http://github.com/matanbt/interp-jailbreak.
O aprendizado por reforço em contexto (ICRL, na sigla em inglês) surgiu como um paradigma promissor para adaptar agentes de RL a tarefas subsequentes por meio de condicionamento por prompts. No entanto, dois desafios notáveis permanecem para aproveitar plenamente o aprendizado em contexto em domínios de RL: a multimodalidade intrínseca dos dados de estado-ação-recompensa e a natureza diversa e heterogênea das tarefas de decisão. Para enfrentar esses desafios, propomos o T2MIR (Token- and Task-wise MoE for In-context RL), uma estrutura inovadora que introduz avanços arquitetônicos de mistura de especialistas (MoE, na sigla em inglês) em modelos de decisão baseados em transformadores. O T2MIR substitui a camada feedforward por duas camadas paralelas: um MoE token-wise que captura semânticas distintas dos tokens de entrada em múltiplas modalidades, e um MoE task-wise que direciona tarefas diversas para especialistas específicos, gerenciando uma ampla distribuição de tarefas com conflitos de gradiente reduzidos. Para aprimorar o roteamento task-wise, introduzimos um método de aprendizado contrastivo que maximiza a informação mútua entre a tarefa e sua representação de roteamento, permitindo uma captura mais precisa de informações relevantes à tarefa. As saídas dos dois componentes MoE são concatenadas e alimentadas na próxima camada. Experimentos abrangentes mostram que o T2MIR facilita significativamente a capacidade de aprendizado em contexto e supera vários tipos de baselines. Trazemos o potencial e a promessa do MoE para o ICRL, oferecendo uma melhoria arquitetônica simples e escalável para avançar o ICRL um passo mais próximo das conquistas nas comunidades de linguagem e visão. Nosso código está disponível em https://github.com/NJU-RL/T2MIR.
Um dos desafios mais profundos do aprendizado de máquina moderno é obter um bom desempenho na cauda longa de características raras e subrepresentadas. Modelos grandes e de propósito geral são treinados para muitas tarefas, mas funcionam melhor em casos de uso de alta frequência. Após o treinamento, é difícil adaptar um modelo para ter um bom desempenho em casos de uso específicos que são subrepresentados no corpus de treinamento. Depender de engenharia de prompts ou exemplos de poucos disparos para maximizar a qualidade da saída em um caso de teste específico pode ser frustrante, pois os modelos podem ser altamente sensíveis a pequenas mudanças, reagir de maneiras imprevistas ou depender de um prompt fixo do sistema para manter o desempenho. Neste trabalho, perguntamos: "Podemos otimizar nossos protocolos de treinamento para melhorar tanto a controlabilidade quanto o desempenho em casos de uso subrepresentados no momento da inferência?" Revisitamos a divisão entre técnicas de treinamento e inferência para melhorar o desempenho na cauda longa, ao mesmo tempo em que fornecemos aos usuários um conjunto de alavancas de controle às quais o modelo é treinado para responder. Criamos uma taxonomia detalhada das características dos dados e da proveniência das tarefas para controlar explicitamente os atributos de geração e condicionar implicitamente as gerações no momento da inferência. Ajustamos um modelo base para inferir esses marcadores automaticamente, o que os torna opcionais no momento da inferência. Essa abordagem fundamentada e flexível resulta em melhorias significativas no desempenho, especialmente em exemplos da cauda longa da distribuição de treinamento. Enquanto observamos um aumento médio de 5,7% nas taxas de vitória na qualidade de geração aberta com nossos marcadores, vemos ganhos de mais de 9,1% em domínios subrepresentados. Também observamos aumentos relativos de até 14,1% em tarefas subrepresentadas, como CodeRepair, e melhorias absolutas de 35,3% em avaliações de seguimento de instruções de comprimento.
A simulação da mobilidade humana desempenha um papel crucial em diversas aplicações do mundo real. Recentemente, para superar as limitações das abordagens tradicionais baseadas em dados, os pesquisadores exploraram o uso do conhecimento de senso comum e das capacidades de raciocínio dos modelos de linguagem de grande escala (LLMs) para acelerar a simulação da mobilidade humana. No entanto, esses métodos apresentam várias deficiências críticas, incluindo a modelagem inadequada dos espaços urbanos e a integração precária tanto com os padrões individuais de mobilidade quanto com as distribuições coletivas de mobilidade. Para enfrentar esses desafios, propomos o **CityGPT-Powered Agentic framework for Mobility Simulation (CAMS)**, um framework agentic que aproveita o modelo de fundação urbana baseado em linguagem para simular a mobilidade humana no espaço urbano. O CAMS é composto por três módulos principais: o **MobExtractor**, para extrair padrões de mobilidade em template e sintetizar novos com base em perfis de usuários; o **GeoGenerator**, para gerar pontos de ancoragem considerando o conhecimento coletivo e gerar conhecimento geoespacial urbano candidato usando uma versão aprimorada do CityGPT; e o **TrajEnhancer**, para recuperar conhecimento espacial com base em padrões de mobilidade e gerar trajetórias com alinhamento de preferência de trajetórias reais via DPO. Experimentos em conjuntos de dados do mundo real mostram que o CAMS alcança desempenho superior sem depender de informações geoespaciais fornecidas externamente. Além disso, ao modelar holisticamente tanto os padrões individuais de mobilidade quanto as restrições coletivas de mobilidade, o CAMS gera trajetórias mais realistas e plausíveis. Em geral, o CAMS estabelece um novo paradigma que integra o framework agentic com LLMs especializados em conhecimento urbano para a simulação da mobilidade humana.
Modelos de base de código aberto têm experimentado uma rápida adoção e desenvolvimento, permitindo capacidades gerais poderosas em diversos domínios. No entanto, o ajuste fino de grandes modelos de base para tarefas específicas de domínio ou personalizadas continua proibitivamente caro para a maioria dos usuários devido à sobrecarga significativa de memória além daquela necessária para inferência. Apresentamos o EMLoC, um framework de ajuste fino eficiente em memória baseado em emulador com Correção LoRA, que permite o ajuste fino do modelo dentro do mesmo orçamento de memória necessário para inferência. O EMLoC constrói um emulador leve específico para a tarefa usando decomposição em valores singulares (SVD) ativada por ativação em um pequeno conjunto de calibração downstream. O ajuste fino é então realizado neste emulador leve via LoRA. Para abordar o desalinhamento entre o modelo original e o emulador comprimido, propomos um novo algoritmo de compensação para corrigir o módulo LoRA ajustado, que pode então ser mesclado ao modelo original para inferência. O EMLoC suporta taxas de compressão flexíveis e pipelines de treinamento padrão, tornando-o adaptável a uma ampla gama de aplicações. Experimentos extensivos demonstram que o EMLoC supera outras baselines em múltiplos conjuntos de dados e modalidades. Além disso, sem quantização, o EMLoC permite o ajuste fino de um modelo de 38B em uma única GPU de consumo de 24GB, trazendo adaptação de modelo eficiente e prática para usuários individuais.
O alinhamento deixou de ser um luxo, tornou-se uma necessidade. À medida que os grandes modelos de linguagem (LLMs) entram em domínios de alto impacto como educação, saúde, governança e direito, seu comportamento deve refletir de forma confiável valores alinhados com os humanos e restrições de segurança. No entanto, as avaliações atuais dependem fortemente de proxies comportamentais, como taxas de recusa, pontuações G-Eval e classificadores de toxicidade, todos os quais têm pontos cegos críticos. Modelos alinhados são frequentemente vulneráveis a jailbreaking, estocasticidade de geração e falsificação de alinhamento. Para abordar essa questão, introduzimos o Índice de Qualidade de Alinhamento (AQI). Essa nova métrica geométrica e invariante a prompts avalia empiricamente o alinhamento de LLMs analisando a separação de ativações seguras e inseguras no espaço latente. Ao combinar medidas como o Índice Davies-Bouldin (DBS), Índice Dunn (DI), Índice Xie-Beni (XBI) e Índice Calinski-Harabasz (CHI) em várias formulações, o AQI captura a qualidade de agrupamento para detectar desalinhamentos ocultos e riscos de jailbreak, mesmo quando as saídas parecem conformes. O AQI também serve como um sinal de alerta precoce para falsificação de alinhamento, oferecendo uma ferramenta robusta e invariante à decodificação para auditorias de segurança agnósticas ao comportamento. Além disso, propomos o conjunto de dados LITMUS para facilitar avaliações robustas nessas condições desafiadoras. Testes empíricos no LITMUS em diferentes modelos treinados sob condições de DPO, GRPO e RLHF demonstram a correlação do AQI com juízes externos e sua capacidade de revelar vulnerabilidades não detectadas por métricas de recusa. Disponibilizamos nossa implementação publicamente para fomentar pesquisas futuras nessa área.
Este trabalho apresenta uma estrutura generalizável para transferir profundidade relativa para profundidade métrica. Os métodos atuais de estimativa de profundidade monocular são divididos principalmente em estimativa de profundidade métrica (MMDE) e estimativa de profundidade relativa (MRDE). MMDEs estimam a profundidade em escala métrica, mas são frequentemente limitados a um domínio específico. MRDEs generalizam bem em diferentes domínios, mas com escalas incertas, o que dificulta aplicações subsequentes. Para isso, nosso objetivo é construir uma estrutura para resolver a incerteza de escala e transferir profundidade relativa para profundidade métrica. Métodos anteriores usavam linguagem como entrada e estimavam dois fatores para realizar o redimensionamento. Nossa abordagem, TR2M, utiliza tanto a descrição textual quanto a imagem como entradas e estima dois mapas de redimensionamento para transferir profundidade relativa para profundidade métrica em nível de pixel. Características de duas modalidades são fundidas com um módulo de atenção cruzada para capturar melhor as informações de escala. Uma estratégia é projetada para construir e filtrar pseudo profundidade métrica confiante para uma supervisão mais abrangente. Também desenvolvemos aprendizado contrastivo orientado por escala para utilizar a distribuição de profundidade como guia para reforçar o aprendizado do modelo sobre conhecimento intrínseco alinhado com a distribuição de escala. O TR2M explora apenas um pequeno número de parâmetros treináveis para treinar em conjuntos de dados de vários domínios, e os experimentos não apenas demonstram o excelente desempenho do TR2M em conjuntos de dados conhecidos, mas também revelam capacidades superiores de generalização zero-shot em cinco conjuntos de dados não vistos. Mostramos o grande potencial na transferência de profundidade relativa para profundidade métrica em nível de pixel com assistência de linguagem. (O código está disponível em: https://github.com/BeileiCui/TR2M)
O Graph Retrieval Augmented Generation (GraphRAG) aprimora efetivamente as capacidades de integração de conhecimento externo ao modelar explicitamente as relações de conhecimento, melhorando assim a precisão factual e a qualidade de geração dos Large Language Models (LLMs) em domínios especializados. No entanto, os métodos existentes sofrem de duas limitações inerentes: 1) Agregação Ineficiente de Informação: Eles dependem de um único agente e de padrões iterativos fixos, dificultando a captura adaptativa de informações textuais, estruturais e de grau em múltiplos níveis dentro de dados gráficos. 2) Mecanismo de Raciocínio Rígido: Eles empregam esquemas de raciocínio pré-definidos, que não podem ajustar dinamicamente a profundidade do raciocínio nem alcançar correção semântica precisa. Para superar essas limitações, propomos o Graph Counselor, um método GraphRAG baseado na colaboração de múltiplos agentes. Este método utiliza o Módulo de Extração Adaptativa de Informação Gráfica (AGIEM), onde os Agentes de Planejamento, Pensamento e Execução trabalham juntos para modelar com precisão estruturas gráficas complexas e ajustar dinamicamente as estratégias de extração de informação, abordando os desafios da modelagem de dependências em múltiplos níveis e da profundidade de raciocínio adaptativa. Além disso, o módulo de Auto-Reflexão com Múltiplas Perspectivas (SR) melhora a precisão e a consistência semântica dos resultados do raciocínio por meio de mecanismos de auto-reflexão e raciocínio reverso. Experimentos demonstram que o Graph Counselor supera os métodos existentes em múltiplas tarefas de raciocínio gráfico, exibindo maior precisão de raciocínio e capacidade de generalização. Nosso código está disponível em https://github.com/gjq100/Graph-Counselor.git.
As doenças transmitidas por mosquitos representam um grande risco global à saúde, exigindo detecção precoce e controle proativo de criadouros para prevenir surtos. Neste artigo, apresentamos o VisText-Mosquito, um conjunto de dados multimodal que integra dados visuais e textuais para apoiar a detecção automatizada, segmentação e raciocínio para análise de criadouros de mosquitos. O conjunto de dados inclui 1.828 imagens anotadas para detecção de objetos, 142 imagens para segmentação de superfície de água e textos de raciocínio em linguagem natural vinculados a cada imagem. O modelo YOLOv9s alcança a maior precisão de 0,92926 e mAP@50 de 0,92891 para detecção de objetos, enquanto o YOLOv11n-Seg atinge uma precisão de segmentação de 0,91587 e mAP@50 de 0,79795. Para geração de raciocínio, nosso modelo BLIP ajustado alcança uma perda final de 0,0028, com pontuação BLEU de 54,7, BERTScore de 0,91 e ROUGE-L de 0,87. Este conjunto de dados e estrutura de modelo enfatizam o tema "Prevenir é Melhor que Remediar", demonstrando como a detecção baseada em IA pode abordar proativamente os riscos de doenças transmitidas por mosquitos. O conjunto de dados e o código de implementação estão disponíveis publicamente no GitHub: https://github.com/adnanul-islam-jisun/VisText-Mosquito
A implantação de políticas grandes e complexas no mundo real exige a capacidade de direcioná-las para atender às necessidades de uma situação. As abordagens de direcionamento mais comuns, como o condicionamento por objetivo, exigem o treinamento da política do robô com uma distribuição de objetivos em mente para o momento de teste. Para superar essa limitação, apresentamos o DynaGuide, um método de direcionamento para políticas de difusão que utiliza orientação de um modelo de dinâmica externa durante o processo de remoção de ruído da difusão. O DynaGuide separa o modelo de dinâmica da política base, o que lhe confere várias vantagens, incluindo a capacidade de direcionar para múltiplos objetivos, aprimorar comportamentos sub-representados da política base e manter a robustez em objetivos de baixa qualidade. O sinal de orientação separado também permite que o DynaGuide funcione com políticas de difusão pré-treinadas prontas para uso. Demonstramos o desempenho e as características do DynaGuide em comparação com outras abordagens de direcionamento em uma série de experimentos simulados e reais, mostrando uma taxa média de sucesso de direcionamento de 70% em um conjunto de tarefas articuladas do CALVIN e superando o condicionamento por objetivo em 5,4 vezes quando direcionado com objetivos de baixa qualidade. Também direcionamos com sucesso uma política de robô real pronta para uso para expressar preferência por objetos específicos e até mesmo criar comportamentos novos. Vídeos e mais informações podem ser encontrados no site do projeto: https://dynaguide.github.io