Artigos de pesquisa em IA selecionados diariamente com traduções
O campo de modelagem de mundos 4D - que visa capturar conjuntamente a geometria espacial e a dinâmica temporal - tem testemunhado progressos notáveis nos últimos anos, impulsionado por avanços em modelos generativos em larga escala e aprendizado multimodal. No entanto, o desenvolvimento de modelos de mundo 4D verdadeiramente gerais continua fundamentalmente limitado pela disponibilidade de dados de alta qualidade. Os conjuntos de dados e benchmarks existentes frequentemente carecem da complexidade dinâmica, diversidade multidisciplinar e anotações espaço-temporais necessárias para apoiar tarefas essenciais, como reconstrução geométrica 4D, previsão futura e geração de vídeos com controle de câmera. Para preencher essa lacuna, apresentamos o OmniWorld, um conjunto de dados em larga escala, multidisciplinar e multimodal, especificamente projetado para modelagem de mundos 4D. O OmniWorld consiste em um novo conjunto de dados coletado, o OmniWorld-Game, e vários conjuntos de dados públicos curados que abrangem diversos domínios. Em comparação com os conjuntos de dados sintéticos existentes, o OmniWorld-Game oferece uma cobertura de modalidades mais rica, escala maior e interações dinâmicas mais realistas. Com base nesse conjunto de dados, estabelecemos um benchmark desafiador que expõe as limitações das abordagens state-of-the-art (SOTA) atuais na modelagem de ambientes 4D complexos. Além disso, o ajuste fino de métodos SOTA existentes no OmniWorld resulta em ganhos significativos de desempenho em tarefas de reconstrução 4D e geração de vídeos, validando fortemente o OmniWorld como um recurso poderoso para treinamento e avaliação. Enxergamos o OmniWorld como um catalisador para acelerar o desenvolvimento de modelos de mundo 4D de propósito geral, avançando, em última análise, a compreensão holística das máquinas sobre o mundo físico.
Modelos de linguagem de grande escala (LLMs) têm feito progressos significativos em Inteligência Emocional (IE) e compreensão de contexto longo. No entanto, os benchmarks existentes tendem a negligenciar certos aspectos da IE em cenários de contexto longo, especialmente em configurações práticas e realistas, onde as interações são longas, diversas e frequentemente ruidosas. Para avançar em direção a essas configurações realistas, apresentamos o LongEmotion, um benchmark especificamente projetado para tarefas de IE em contexto longo. Ele abrange um conjunto diversificado de tarefas, incluindo Classificação de Emoções, Detecção de Emoções, Perguntas e Respostas sobre Emoções, Conversa Emocional, Resumo Emocional e Expressão Emocional. Em média, o comprimento da entrada para essas tarefas chega a 8.777 tokens, com geração de texto longo necessária para a Expressão Emocional. Para melhorar o desempenho sob restrições realistas, incorporamos Geração Aumentada por Recuperação (RAG) e Modelagem Emocional Colaborativa (CoEM), e as comparamos com métodos padrão baseados em prompts. Diferente das abordagens convencionais, nosso método RAG aproveita tanto o contexto da conversa quanto o próprio modelo de linguagem de grande escala como fontes de recuperação, evitando a dependência de bases de conhecimento externas. O método CoEM melhora ainda mais o desempenho ao decompor a tarefa em cinco estágios, integrando tanto a recuperação aumentada quanto a injeção limitada de conhecimento. Os resultados experimentais mostram que tanto RAG quanto CoEM consistentemente melhoram o desempenho relacionado à IE na maioria das tarefas de contexto longo, avançando os LLMs em direção a aplicações de IE mais práticas e do mundo real. Além disso, realizamos um estudo de caso comparativo na série GPT para demonstrar as diferenças entre vários modelos em termos de IE. O código está disponível no GitHub em https://github.com/LongEmotion/LongEmotion, e a página do projeto pode ser encontrada em https://longemotion.github.io/.
Agentes de Interface Gráfica do Usuário (GUI) têm demonstrado progressos notáveis na automação de interações complexas com interfaces por meio de aprendizagem por reforço. No entanto, as abordagens atuais enfrentam um dilema fundamental: o RL offline permite treinamento estável em trajetórias pré-coletadas, mas luta com a execução de tarefas de múltiplos passos devido à falta de sinais de recompensa em nível de trajetória; o RL online captura esses sinais por meio da interação com o ambiente, mas sofre com recompensas esparsas e custos de implantação proibitivos. Para resolver isso, apresentamos a Aprendizagem por Reforço Semi-online, um novo paradigma que simula o RL online em trajetórias offline. Durante cada processo de rollout, preservamos a saída original do modelo dentro do diálogo de múltiplos turnos, onde um Módulo de Correção adaptativamente recupera a divergência entre o rollout e as trajetórias especializadas. Para capturar sinais de treinamento de longo prazo, o RL Semi-online introduz retornos futuros descontados no cálculo da recompensa e otimiza a política com vantagens ponderadas em nível de passo e de episódio. Além disso, introduzimos o Desempenho Semi-online (SOP), uma métrica que se alinha melhor com o desempenho online real, servindo como um proxy prático e eficaz para avaliação no mundo real. Experimentos mostram que nosso RL Semi-online alcança desempenho de estado da arte entre modelos de 7B em quatro benchmarks dinâmicos, com ganhos significativos sobre o modelo base (por exemplo, +12,0% no AndroidWorld, +23,8% no AITW), demonstrando progresso significativo em reduzir a lacuna entre a eficiência do treinamento offline e o raciocínio de múltiplos turnos online. O código está disponível em https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1.
O avanço da IA Embarcada depende fortemente de conjuntos de dados de cenas 3D simuláveis em grande escala, caracterizados pela diversidade de cenas e layouts realistas. No entanto, os conjuntos de dados existentes geralmente sofrem com limitações na escala ou diversidade dos dados, layouts sanitizados que carecem de itens pequenos e colisões severas entre objetos. Para abordar essas deficiências, apresentamos o InternScenes, um novo conjunto de dados de cenas internas simuláveis em grande escala, composto por aproximadamente 40.000 cenas diversas, integrando três fontes distintas de cenas: varreduras do mundo real, cenas geradas proceduralmente e cenas criadas por designers, incluindo 1,96 milhão de objetos 3D e abrangendo 15 tipos comuns de cenas e 288 classes de objetos. Preservamos especialmente uma grande quantidade de itens pequenos nas cenas, resultando em layouts realistas e complexos, com uma média de 41,5 objetos por região. Nosso pipeline abrangente de processamento de dados garante a simulabilidade ao criar réplicas realistas para varreduras do mundo real, aumenta a interatividade ao incorporar objetos interativos nessas cenas e resolve colisões de objetos por meio de simulações físicas. Demonstramos o valor do InternScenes com duas aplicações de referência: geração de layout de cenas e navegação por ponto de destino. Ambas mostram os novos desafios impostos pelos layouts complexos e realistas. Mais importante ainda, o InternScenes abre caminho para ampliar o treinamento de modelos para ambas as tarefas, tornando possível a geração e navegação em cenas tão complexas. Comprometemo-nos a disponibilizar os dados, modelos e benchmarks em código aberto para beneficiar toda a comunidade.
Modelos visão-linguagem (VLMs) frequentemente processam entradas visuais por meio de um codificador visual pré-treinado, seguido por uma projeção no espaço de incorporação do modelo de linguagem através de um componente conector. Embora crucial para a fusão de modalidades, a potencial perda de informação induzida por essa etapa de projeção e seu impacto direto nas capacidades do modelo permanecem pouco estudados. Introduzimos duas abordagens complementares para examinar e quantificar essa perda, analisando o espaço de representação latente. Primeiro, avaliamos a preservação de informação semântica analisando mudanças nas relações de k-vizinhos mais próximos entre as representações de imagens, antes e depois da projeção. Segundo, medimos diretamente a perda de informação reconstruindo incorporações visuais a partir da representação projetada, localizando a perda em nível de segmentos de imagem. Experimentos revelam que os conectores distorcem substancialmente a geometria local das representações visuais, com k-vizinhos mais próximos divergindo em 40--60\% após a projeção, correlacionando-se com a degradação no desempenho de recuperação. A reconstrução de incorporações em nível de segmento fornece insights interpretáveis sobre o comportamento do modelo em tarefas de questionamento baseado em visão, mostrando que áreas de alta perda de informação preveem de forma confiável instâncias em que os modelos têm dificuldades.
A dependência no emparelhamento implícito de pontos via atenção tornou-se um gargalo central na edição baseada em arrasto, resultando em um compromisso fundamental entre a força de inversão enfraquecida e a otimização custosa em tempo de teste (TTO). Esse compromisso limita severamente as capacidades generativas dos modelos de difusão, suprimindo a restauração de alta fidelidade e a criação guiada por texto. Neste artigo, introduzimos o LazyDrag, o primeiro método de edição de imagens baseado em arrasto para Transformers de Difusão Multi-Modal, que elimina diretamente a dependência do emparelhamento implícito de pontos. Em termos concretos, nosso método gera um mapa de correspondência explícito a partir das entradas de arrasto do usuário como uma referência confiável para impulsionar o controle de atenção. Essa referência confiável abre o potencial para um processo de inversão estável e de força total, o primeiro na tarefa de edição baseada em arrasto. Isso dispensa a necessidade de TTO e libera a capacidade generativa dos modelos. Portanto, o LazyDrag naturalmente unifica o controle geométrico preciso com a orientação por texto, permitindo edições complexas que antes eram inatingíveis: abrir a boca de um cachorro e restaurar seu interior, gerar novos objetos como uma "bola de tênis" ou, para arrastos ambíguos, fazer alterações conscientes do contexto, como mover uma mão para o bolso. Além disso, o LazyDrag suporta fluxos de trabalho de múltiplas rodadas com operações simultâneas de movimento e escala. Avaliado no DragBench, nosso método supera as linhas de base em precisão de arrasto e qualidade perceptual, conforme validado pelo VIEScore e pela avaliação humana. O LazyDrag não apenas estabelece um novo estado da arte em desempenho, mas também abre um novo caminho para paradigmas de edição.
O Ajuste Fino Supervisionado (SFT) é essencial para o treinamento de modelos de linguagem de grande escala (LLMs), aprimorando significativamente capacidades críticas, como o seguimento de instruções e a aprendizagem em contexto. No entanto, a criação de conjuntos de dados de treinamento adequados e adaptados a domínios específicos continua sendo um desafio devido a restrições únicas do domínio e à escassez de dados. Neste artigo, propomos o SearchInstruct, um método inovador projetado especificamente para construir conjuntos de dados de instruções de alta qualidade para SFT. Nossa abordagem começa com um conjunto limitado de perguntas específicas do domínio, geradas por humanos, que são sistematicamente expandidas usando um modelo de linguagem de grande escala. Em seguida, recursos relevantes ao domínio são recuperados dinamicamente para gerar respostas precisas e contextualmente apropriadas para cada pergunta ampliada. A avaliação experimental demonstra que o SearchInstruct melhora tanto a diversidade quanto a qualidade dos conjuntos de dados de SFT, resultando em melhorias mensuráveis no desempenho de LLMs em domínios especializados. Além disso, mostramos que, além da geração de conjuntos de dados, o método proposto também pode facilitar efetivamente tarefas como a edição de modelos, permitindo atualizações eficientes em modelos existentes. Para facilitar a reprodutibilidade e a adoção pela comunidade, fornecemos detalhes completos de implementação, o conjunto completo de pares de instrução-resposta gerados e o código-fonte em um repositório Git publicamente acessível: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).
Trabalhos anteriores em aprendizado por reforço multiobjetivo geralmente utilizam escalarização linear de recompensas com pesos fixos, o que comprovadamente falha em capturar frentes de Pareto não convexas e, portanto, produz resultados subótimos. Essa limitação torna-se especialmente crítica no alinhamento de preferências online para modelos de linguagem de grande escala. Aqui, trajetórias estocásticas geradas por políticas parametrizadas criam mapeamentos altamente não lineares e não convexos dos parâmetros para os objetivos, para os quais nenhum esquema de ponderação estática única pode encontrar compensações ótimas. Abordamos essa limitação introduzindo a ponderação dinâmica de recompensas, que ajusta adaptativamente os pesos das recompensas durante o processo de aprendizado por reforço online. Diferente das abordagens existentes que dependem de interpolação com pesos fixos, nossa ponderação dinâmica equilibra e prioriza continuamente os objetivos durante o treinamento, facilitando a exploração eficaz das frentes de Pareto no espaço de objetivos. Introduzimos duas abordagens de crescente sofisticação e generalizabilidade: (1) adaptação de pesos guiada por hipervolume e (2) otimização de pesos baseada em gradiente, oferecendo um conjunto de ferramentas versátil para o alinhamento multiobjetivo online. Nossos experimentos extensivos demonstram sua compatibilidade com algoritmos comumente usados de aprendizado por reforço online (incluindo GRPO, REINFORCE e RLOO), eficácia em múltiplos conjuntos de dados de raciocínio matemático e aplicabilidade a diferentes famílias de modelos, consistentemente alcançando soluções Pareto dominantes com menos etapas de treinamento do que as linhas de base de escalarização linear com pesos fixos.
Entre os modelos generativos, os modelos de difusão são particularmente intrigantes devido à existência de um minimizador ótimo de forma fechada para seu objetivo de treinamento, frequentemente referido como o desnuidador ótimo. No entanto, a difusão usando esse desnuidador ótimo meramente reproduz imagens do conjunto de treinamento e, portanto, falha em capturar o comportamento dos modelos de difusão profundos. Trabalhos recentes tentaram caracterizar essa lacuna entre o desnuidador ótimo e os modelos de difusão profundos, propondo modelos analíticos e livres de treinamento que podem gerar imagens semelhantes às geradas por uma UNet treinada. O método de melhor desempenho hipotetiza que a equivariância a deslocamentos e os vieses indutivos de localidade das redes neurais convolucionais são a causa da lacuna de desempenho, incorporando, portanto, essas suposições em seu modelo analítico. Neste trabalho, apresentamos evidências de que a localidade nos modelos de difusão profundos emerge como uma propriedade estatística do conjunto de dados de imagens, e não devido ao viés indutivo das redes neurais convolucionais. Especificamente, demonstramos que um desnuidador linear paramétrico ótimo exibe propriedades de localidade semelhantes às dos desnuidadores neurais profundos. Além disso, mostramos, tanto teoricamente quanto experimentalmente, que essa localidade surge diretamente das correlações de pixels presentes em conjuntos de dados de imagens naturais. Por fim, utilizamos essas percepções para criar um desnuidador analítico que corresponde melhor às pontuações previstas por um modelo de difusão profundo do que a alternativa anteriormente elaborada por especialistas.
Alucinações em modelos de linguagem multimodal de grande escala (MLLMs) -- onde o modelo gera conteúdo inconsistente com a imagem de entrada -- representam riscos significativos em aplicações do mundo real, desde desinformação em questionamento visual até erros perigosos na tomada de decisões. Os benchmarks existentes testam principalmente a precisão de reconhecimento, ou seja, avaliam se os modelos podem selecionar a resposta correta entre distratores. Isso ignora uma capacidade igualmente crítica para IA confiável: reconhecer quando nenhuma das opções fornecidas está correta, um comportamento que reflete humildade epistêmica. Apresentamos o HumbleBench, um novo benchmark de alucinação projetado para avaliar a capacidade dos MLLMs de rejeitar respostas plausíveis, mas incorretas, em três tipos de alucinação: objeto, relação e atributo. Construído a partir de um conjunto de dados de grafos de cena panópticos, utilizamos anotações detalhadas de grafos de cena para extrair entidades e relações verdadeiras, e solicitamos ao GPT-4-Turbo que gere perguntas de múltipla escolha, seguidas por um rigoroso processo de filtragem manual. Cada pergunta inclui uma opção "Nenhuma das anteriores", exigindo que os modelos não apenas reconheçam informações visuais corretas, mas também identifiquem quando nenhuma resposta fornecida é válida. Avaliamos uma variedade de MLLMs de última geração -- incluindo modelos de propósito geral e especializados em raciocínio -- no HumbleBench e compartilhamos descobertas e insights valiosos com a comunidade. Ao incorporar a rejeição explícita de opções falsas, o HumbleBench preenche uma lacuna crucial nos conjuntos de avaliação atuais, fornecendo uma medida mais realista da confiabilidade dos MLLMs em cenários críticos para a segurança. Nosso código e conjunto de dados são disponibilizados publicamente e podem ser acessados em https://github.com/maifoundations/HumbleBench.
A navegação incorporada exige que os agentes integrem percepção, raciocínio e ação para interações robustas em ambientes 3D complexos. As abordagens existentes frequentemente sofrem com traços de raciocínio incoerentes e instáveis que dificultam a generalização em diversos ambientes, além de enfrentarem desafios para equilibrar o raciocínio semântico de longo prazo com o controle de baixa latência necessário para navegação em tempo real. Para enfrentar esses desafios, propomos o Nav-R1, um modelo de base incorporado que unifica o raciocínio em ambientes incorporados. Primeiro, construímos o Nav-CoT-110K, um conjunto de dados em larga escala de Cadeias de Pensamento (CoT) passo a passo para tarefas incorporadas, o que permite uma inicialização a frio com raciocínio estruturado. Com base nessa fundação, projetamos um framework de aprendizado por reforço baseado em GRPO com três recompensas complementares: formato, compreensão e navegação, para melhorar a aderência estrutural, a fundamentação semântica e a fidelidade do caminho. Além disso, introduzimos um paradigma de raciocínio Rápido-no-Lento, que desacopla o raciocínio semântico deliberado do controle reativo de baixa latência para uma navegação eficiente e coerente. Avaliações extensas em benchmarks de IA incorporada demonstram que o Nav-R1 supera consistentemente as linhas de base fortes, com uma melhoria média de mais de 8% no desempenho de raciocínio e navegação. A implantação no mundo real em um robô móvel valida ainda mais sua robustez sob recursos limitados a bordo. Código: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
Os recentes avanços no raciocínio de "pensamento lento" baseado apenas em texto têm impulsionado esforços para transferir essa capacidade para modelos de linguagem-visão (VLMs), visando treinar modelos de raciocínio visual (VRMs). No entanto, essa transferência enfrenta desafios críticos: o "pensamento lento" eficaz em VRMs requer reflexão visual, a capacidade de verificar o processo de raciocínio com base em informações visuais. Através de análises quantitativas, observamos que os VRMs atuais exibem reflexão visual limitada, pois sua atenção às informações visuais diminui rapidamente com respostas geradas mais longas. Para enfrentar esse desafio, propomos um novo VRM, o Reflection-V, que aprimora a reflexão visual com base na construção de dados de raciocínio para o aprendizado inicial (cold-start) e no design de recompensas para o aprendizado por reforço (RL). Primeiramente, construímos dados de raciocínio centrados na visão utilizando um agente que interage entre VLMs e modelos de linguagem de raciocínio (LLMs), permitindo o aprendizado inicial de padrões de reflexão visual. Em segundo lugar, um modelo de recompensa baseado em atenção visual é empregado durante o RL para incentivar o raciocínio com base em informações visuais. Como resultado, o Reflection-V demonstra melhorias significativas em diversos benchmarks de raciocínio visual. Além disso, o Reflection-V mantém uma dependência mais forte e consistente nas informações visuais durante o raciocínio visual, indicando um aprimoramento eficaz nas capacidades de reflexão visual.
Compreender os traços comportamentais humanos é fundamental para aplicações em interação humano-computador, ciência social computacional e sistemas de IA personalizados. Tal compreensão frequentemente requer a integração de múltiplas modalidades para capturar padrões e relações sutis. No entanto, os recursos existentes raramente fornecem conjuntos de dados que combinam descritores comportamentais com modalidades complementares, como atributos faciais e informações biográficas. Para preencher essa lacuna, apresentamos o PersonaX, uma coleção curada de conjuntos de dados multimodais projetados para permitir uma análise abrangente de traços públicos em diversas modalidades. O PersonaX consiste em (1) CelebPersona, que apresenta 9444 figuras públicas de diversas ocupações, e (2) AthlePersona, abrangendo 4181 atletas profissionais de 7 grandes ligas esportivas. Cada conjunto de dados inclui avaliações de traços comportamentais inferidos por três modelos de linguagem de grande porte de alto desempenho, juntamente com imagens faciais e características biográficas estruturadas. Analisamos o PersonaX em dois níveis complementares. Primeiro, abstraímos pontuações de traços de alto nível a partir de descrições textuais e aplicamos cinco testes de independência estatística para examinar suas relações com outras modalidades. Segundo, introduzimos uma nova estrutura de aprendizado de representação causal (CRL) adaptada a dados multimodais e de múltiplas medições, fornecendo garantias teóricas de identificabilidade. Experimentos com dados sintéticos e do mundo real demonstram a eficácia de nossa abordagem. Ao unificar análises estruturadas e não estruturadas, o PersonaX estabelece uma base para o estudo de traços comportamentais inferidos por modelos de linguagem de grande porte em conjunto com atributos visuais e biográficos, avançando a análise multimodal de traços e o raciocínio causal.
O surgimento de plataformas de mídia social descentralizadas apresenta novas oportunidades e desafios para a análise em tempo real do discurso público. Este estudo introduz o CognitiveSky, um framework de código aberto e escalável projetado para análise de sentimento, emoção e narrativa no Bluesky, uma alternativa federada ao Twitter ou X.com. Ao ingerir dados por meio da Interface de Programação de Aplicações (API) do Bluesky, o CognitiveSky aplica modelos baseados em transformadores para anotar conteúdo gerado por usuários em larga escala e produz saídas estruturadas e analisáveis. Esses resumos alimentam um painel dinâmico que visualiza padrões em evolução de emoção, atividade e tópicos de conversa. Construído inteiramente em infraestrutura de nível gratuito, o CognitiveSky alcança tanto baixo custo operacional quanto alta acessibilidade. Embora demonstrado aqui para monitorar o discurso sobre saúde mental, seu design modular permite aplicações em diversos domínios, como detecção de desinformação, resposta a crises e análise de sentimento cívico. Ao conectar modelos de linguagem de grande escala com redes descentralizadas, o CognitiveSky oferece uma ferramenta transparente e extensível para a ciência social computacional em uma era de ecossistemas digitais em transformação.
A tokenização de fala permite a representação discreta e facilita a modelagem de linguagem de fala. No entanto, os codecs neurais existentes capturam características acústicas de baixo nível, negligenciando as pistas semânticas e contextuais inerentes à fala humana. Embora esforços recentes tenham introduzido representações semânticas a partir de modelos de fala auto-supervisionados ou incorporado representações contextuais de modelos de linguagem pré-treinados, os desafios permanecem no alinhamento e unificação das representações semânticas e contextuais. Apresentamos o FuseCodec, que unifica representações acústicas, semânticas e contextuais por meio de um forte alinhamento multimodal e supervisão globalmente informada. Propomos três técnicas complementares: (i) Fusão de Representação Latente, integrando características semânticas e contextuais diretamente no espaço latente do codificador para um aprendizado de representação robusto e unificado; (ii) Supervisão Global Semântico-Contextual, supervisionando tokens discretos com representações agrupadas e transmitidas globalmente para melhorar a consistência temporal e o alinhamento multimodal; e (iii) Supervisão Contextual Temporalmente Alinhada, fortalecendo o alinhamento ao corresponder dinamicamente tokens contextuais e de fala dentro de uma janela local para uma supervisão refinada em nível de token. Além disso, introduzimos o FuseCodec-TTS, demonstrando a aplicabilidade de nossa metodologia na síntese de fala zero-shot. Empiricamente, o FuseCodec alcança desempenho de ponta no LibriSpeech, superando EnCodec, SpeechTokenizer e DAC em precisão de transcrição, qualidade perceptual, inteligibilidade e similaridade do falante. Os resultados destacam a eficácia da tokenização de fala guiada contextual e semanticamente para tarefas de tokenização e aplicações subsequentes. Código e modelos pré-treinados estão disponíveis em https://github.com/mubtasimahasan/FuseCodec.
Modelos de incorporação específicos de domínio têm mostrado potencial para aplicações que exigem compreensão semântica especializada, como agentes de codificação e sistemas de recuperação financeira, frequentemente alcançando ganhos de desempenho superiores aos modelos gerais. No entanto, os modelos de incorporação state-of-the-art são tipicamente baseados em LLMs, que contêm bilhões de parâmetros, tornando o desafio de implantação em ambientes com recursos limitados. A compressão de modelos por meio de poda oferece uma solução promissora, mas os métodos de poda existentes tratam todos os parâmetros de forma uniforme, falhando em distinguir entre representações semânticas gerais e padrões específicos de domínio, levando a decisões de poda subótimas. Assim, propomos o GAPrune, uma estrutura de poda que aborda esse desafio considerando tanto a importância do domínio quanto a preservação da base linguística geral. Nosso método utiliza a Informação de Fisher para medir a importância e o alinhamento de gradiente de domínio geral para avaliar o comportamento dos parâmetros, combinando esses sinais usando nossa pontuação de Importância de Alinhamento de Domínio (DAI). Pontuações DAI mais baixas indicam que o parâmetro é menos importante para a tarefa do domínio ou cria conflitos entre os objetivos do domínio e os gerais. Experimentos em dois benchmarks de domínio, FinMTEB e ChemTEB, mostram que o GAPrune mantém o desempenho dentro de 2,5% dos modelos densos em poda one-shot com 50% de esparsidade, enquanto supera todas as baselines. Com retreinamento em 100 passos, o GAPrune alcança uma melhoria de +4,51% no FinMTEB e +1,73% no ChemTEB, demonstrando que nossa estratégia de poda não apenas preserva, mas também aprimora as capacidades específicas do domínio. Nossos achados demonstram que estratégias de poda fundamentadas podem alcançar compressão de modelos e especialização de domínio aprimorada, fornecendo à comunidade de pesquisa uma nova abordagem para o desenvolvimento.
À medida que os modelos de linguagem de grande escala (LLMs) interagem cada vez mais com ferramentas externas, a modelagem de recompensas para o uso de ferramentas tornou-se uma área crítica, porém pouco explorada. Os modelos de recompensa existentes, treinados principalmente em saídas de linguagem natural, têm dificuldade em avaliar o raciocínio e a execução baseados em ferramentas. Para quantificar essa lacuna, introduzimos o FC-RewardBench, o primeiro benchmark projetado para avaliar sistematicamente o desempenho dos modelos de recompensa em cenários de chamada de ferramentas. Nossa análise mostra que os modelos de recompensa atuais frequentemente perdem sinais-chave de uso eficaz de ferramentas, destacando a necessidade de modelagem específica para o domínio. Para abordar isso, propomos um framework de treinamento para modelos de recompensa baseados em resultados, utilizando dados sintetizados de LLMs de código aberto e licenciados de forma permissiva. Treinamos modelos variando de 1,7B a 14B parâmetros e os avaliamos em sete benchmarks fora do domínio. Esses modelos superam consistentemente as linhas de base de propósito geral, alcançando uma melhoria média de até 25% no desempenho de tarefas subsequentes e permitindo ajuste fino eficiente em termos de dados por meio de filtragem guiada por recompensa.
A implantação de modelos de linguagem de grande escala (LLMs) em saúde mental e outros domínios sensíveis levanta questões urgentes sobre raciocínio ético, justiça e alinhamento responsável. No entanto, os benchmarks existentes para tomada de decisão moral e clínica não capturam adequadamente os dilemas éticos únicos encontrados na prática de saúde mental, onde confidencialidade, autonomia, beneficência e viés frequentemente se interseccionam. Para abordar essa lacuna, apresentamos o Raciocínio Ético em Saúde Mental (EthicsMH), um conjunto de dados piloto de 125 cenários projetados para avaliar como os sistemas de IA navegam em situações eticamente carregadas em contextos terapêuticos e psiquiátricos. Cada cenário é enriquecido com campos estruturados, incluindo múltiplas opções de decisão, raciocínio alinhado com especialistas, comportamento esperado do modelo, impacto no mundo real e perspectivas de múltiplas partes interessadas. Essa estrutura permite a avaliação não apenas da precisão da decisão, mas também da qualidade da explicação e do alinhamento com as normas profissionais. Embora modesto em escala e desenvolvido com geração assistida por modelos, o EthicsMH estabelece uma estrutura de tarefas que conecta a ética da IA e a tomada de decisão em saúde mental. Ao disponibilizar esse conjunto de dados, nosso objetivo é fornecer um recurso inicial que possa ser expandido por meio de contribuições da comunidade e de especialistas, promovendo o desenvolvimento de sistemas de IA capazes de lidar responsavelmente com algumas das decisões mais delicadas da sociedade.
Os avanços recentes em modelos de vídeo de grande escala (LVMs) têm aprimorado significativamente a compreensão de vídeos. No entanto, esses modelos ainda sofrem com alucinações, produzindo conteúdo que conflita com os vídeos de entrada. Para abordar esse problema, propomos o Dr.V, uma estrutura hierárquica que abrange níveis perceptivos, temporais e cognitivos para diagnosticar alucinações em vídeos por meio de ancoragem espaço-temporal refinada. O Dr.V é composto por dois componentes principais: um conjunto de dados de referência, o Dr.V-Bench, e um agente de vídeo satélite, o Dr.V-Agent. O Dr.V-Bench inclui 10 mil instâncias extraídas de 4.974 vídeos que abrangem diversas tarefas, cada uma enriquecida com anotações espaço-temporais detalhadas. O Dr.V-Agent detecta alucinações em LVMs aplicando sistematicamente ancoragem espaço-temporal refinada nos níveis perceptivo e temporal, seguida por raciocínio no nível cognitivo. Esse pipeline passo a passo espelha a compreensão de vídeo semelhante à humana e identifica efetivamente as alucinações. Experimentos extensivos demonstram que o Dr.V-Agent é eficaz no diagnóstico de alucinações, ao mesmo tempo em que melhora a interpretabilidade e a confiabilidade, oferecendo um plano prático para uma compreensão robusta de vídeos em cenários do mundo real. Todos os nossos dados e código estão disponíveis em https://github.com/Eurekaleo/Dr.V.
Este artigo apresenta nosso sistema para a Tarefa 3 do CLEF 2025 CheckThat! Lab, que se concentra na verificação de afirmações numéricas e temporais utilizando evidências recuperadas. Exploramos duas abordagens complementares: prompting zero-shot com grandes modelos de linguagem (LLMs) ajustados por instrução e fine-tuning supervisionado usando LoRA, um método eficiente em parâmetros. Para melhorar a qualidade das evidências, investigamos várias estratégias de seleção, incluindo a entrada de documentos completos e a filtragem das k melhores frases usando BM25 e MiniLM. Nosso modelo de melhor desempenho, LLaMA ajustado com LoRA, alcança resultados robustos no conjunto de validação em inglês. No entanto, uma queda significativa no conjunto de teste destaca um desafio de generalização. Esses resultados ressaltam a importância da granularidade das evidências e da adaptação do modelo para uma verificação robusta de fatos numéricos.