Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o SAM 3D, um modelo generativo para reconstrução 3D de objetos com base visual, que prevê geometria, textura e disposição a partir de uma única imagem. O SAM 3D destaca-se em imagens naturais, onde a oclusão e a desorganização da cena são comuns e os indícios de reconhecimento visual a partir do contexto desempenham um papel mais importante. Conseguimos isso com um *pipeline* que inclui humanos e modelos no processo para anotar a forma, a textura e a pose do objeto, fornecendo dados de reconstrução 3D com base visual em uma escala sem precedentes. Aprendemos a partir desses dados em uma estrutura de treinamento moderna e em vários estágios que combina o pré-treinamento sintético com o alinhamento do mundo real, superando a "barreira de dados" em 3D. Obtivemos ganhos significativos em relação a trabalhos recentes, com uma taxa de preferência humana de pelo menos 5:1 em testes com objetos e cenas do mundo real. Disponibilizaremos nosso código e pesos do modelo, uma demonstração online e um novo *benchmark* desafiador para reconstrução 3D de objetos em ambientes não controlados.
Os Agentes de Modelos de Linguagem de Grande Porte (LLM), frequentemente treinados com Aprendizagem por Reforço (RL), são limitados por uma dependência de dados curados por humanos, restringindo a escalabilidade e vinculando a IA ao conhecimento humano. As estruturas de auto-evolução existentes oferecem uma alternativa, mas são tipicamente limitadas pelas capacidades inerentes do modelo e por interações de rodada única, dificultando o desenvolvimento de currículos complexos que envolvam o uso de ferramentas ou raciocínio dinâmico. Apresentamos o Agent0, uma estrutura totalmente autónoma que evolui agentes de alto desempenho sem dados externos, através de co-evolução multi-etapas e integração perfeita de ferramentas. O Agent0 estabelece uma competição simbiótica entre dois agentes inicializados a partir do mesmo LLM base: um agente de currículo que propõe tarefas de fronteira progressivamente mais desafiadoras, e um agente executor que aprende a resolvê-las. Integramos ferramentas externas para aumentar a capacidade de resolução de problemas do executor; esta melhoria, por sua vez, pressiona o agente de currículo a construir tarefas mais complexas e conscientes das ferramentas. Através deste processo iterativo, o Agent0 estabelece um ciclo de auto-reforço que produz continuamente currículos de alta qualidade. Empiricamente, o Agent0 aumenta substancialmente as capacidades de raciocínio, melhorando o modelo Qwen3-8B-Base em 18% no raciocínio matemático e 24% em benchmarks de raciocínio geral. O código está disponível em https://github.com/aiming-lab/Agent0.
Avanços recentes em modelos de raciocínio demonstraram sucesso notável em domínios de texto e imagem por meio de deliberação estendida de cadeia de pensamento. No entanto, um fenômeno intrigante persiste em modelos de linguagem de áudio: eles consistentemente apresentam melhor desempenho com raciocínio mínimo ou nulo, levantando uma questão fundamental - a inteligência de áudio pode realmente se beneficiar do pensamento deliberado? Apresentamos o Step-Audio-R1, o primeiro modelo de raciocínio de áudio que desbloqueia com sucesso capacidades de raciocínio no domínio sonoro. Através de nossa estrutura proposta de Distilação de Raciocínio Fundamentado em Modalidade (MGRD), o Step-Audio-R1 aprende a gerar cadeias de raciocínio relevantes para áudio que genuinamente se fundamentam em características acústicas, em vez de alucinar deliberações desconectadas. Nosso modelo exibe fortes capacidades de raciocínio auditivo, superando o Gemini 2.5 Pro e alcançando desempenho comparável ao estado da arte Gemini 3 Pro em benchmarks abrangentes de compreensão e raciocínio de áudio abrangendo fala, sons ambientais e música. Esses resultados demonstram que o raciocínio é uma capacidade transferível entre modalidades quando adequadamente ancorada, transformando a deliberação estendida de um passivo em um recurso poderoso para a inteligência de áudio. Ao estabelecer o primeiro modelo de raciocínio de áudio bem-sucedido, o Step-Audio-R1 abre novos caminhos para a construção de sistemas de raciocínio verdadeiramente multimodais que pensam profundamente em todas as modalidades sensoriais.
Os avanços recentes em modelos generativos de vídeo, como o Veo-3, têm demonstrado capacidades surpreendentes de raciocínio zero-shot, criando uma necessidade crescente de avaliação sistemática e confiável. Apresentamos o V-ReasonBench, um benchmark projetado para avaliar o raciocínio em vídeo em quatro dimensões principais: resolução estruturada de problemas, cognição espacial, inferência baseada em padrões e dinâmica física. O benchmark é construído a partir de sequências de imagens sintéticas e do mundo real e oferece um conjunto diversificado de tarefas verificáveis por respostas que são reproduzíveis, escaláveis e inequívocas. As avaliações de seis modelos de vídeo de última geração revelam diferenças claras entre as dimensões, com variações significativas no raciocínio estruturado, espacial, baseado em padrões e físico. Além disso, comparamos modelos de vídeo com modelos de imagem robustos, analisamos comportamentos comuns de alucinação e estudamos como a duração do vídeo afeta o raciocínio em cadeia de quadros. No geral, o V-ReasonBench oferece uma estrutura unificada e reproduzível para medir o raciocínio em vídeo e visa apoiar o desenvolvimento de modelos com habilidades de raciocínio mais confiáveis e alinhadas com o pensamento humano.
Qual é o papel do primeiro quadro em modelos de geração de vídeo? Tradicionalmente, é visto como o ponto de partida espaço-temporal de um vídeo, meramente uma semente para a animação subsequente. Neste trabalho, revelamos uma perspectiva fundamentalmente diferente: os modelos de vídeo tratam implicitamente o primeiro quadro como um *buffer* de memória conceitual que armazena entidades visuais para reutilização posterior durante a geração. Aproveitando essa percepção, demonstramos que é possível alcançar uma personalização de conteúdo de vídeo robusta e generalizada em diversos cenários, usando apenas 20-50 exemplos de treinamento, sem alterações arquiteturais ou *fine-tuning* em larga escala. Isso revela uma capacidade poderosa e negligenciada dos modelos de geração de vídeo para personalização baseada em referência.
Apesar dos progressos notáveis, os modelos de base multimodal ainda apresentam deficiências surpreendentes em inteligência espacial. Neste trabalho, exploramos a ampliação de modelos de base multimodal para cultivar a inteligência espacial na família SenseNova-SI, construída sobre fundamentos multimodais estabelecidos, incluindo modelos de compreensão visual (ou seja, Qwen3-VL e InternVL3) e modelos unificados de compreensão e geração (ou seja, Bagel). Adotamos uma abordagem fundamentada para construir uma inteligência espacial robusta e de alto desempenho, curando sistematicamente o SenseNova-SI-8M: oito milhões de amostras de dados diversificadas sob uma taxonomia rigorosa de capacidades espaciais. O SenseNova-SI demonstra um desempenho sem precedentes em uma ampla gama de benchmarks de inteligência espacial: 68,7% no VSI-Bench, 43,3% no MMSI, 85,6% no MindCube, 54,6% no ViewSpatial e 50,1% no SITE, mantendo ao mesmo tempo uma forte compreensão multimodal geral (por exemplo, 84,9% no MMBench-En). Mais importante ainda, analisamos o impacto da escala de dados, discutimos os primeiros sinais de capacidades emergentes de generalização possibilitadas pelo treinamento com dados diversificados, analisamos o risco de sobreajuste e atalhos linguísticos, apresentamos um estudo preliminar sobre raciocínio espacial em cadeia de pensamento (chain-of-thought) e validamos a potencial aplicação descendente. O SenseNova-SI é um projeto contínuo, e este relatório será atualizado constantemente. Todos os modelos de base multimodal recém-treinados são disponibilizados publicamente para facilitar pesquisas futuras nessa direção.
Embora os modelos de linguagem tenham se tornado impactantes em muitas aplicações do mundo real, a geração de vídeo permanece amplamente confinada ao entretenimento. Motivados pela capacidade inerente do vídeo de demonstrar informações do mundo físico que são difíceis de transmitir apenas por linguagem (por exemplo, imagine ensinar alguém a dar nó em gravata usando apenas texto), identificamos uma oportunidade subutilizada de estender o vídeo como uma nova modalidade de resposta para a Predição do Próximo Evento (Next-Event Prediction - NEP), formalizada como Predição do Próximo Evento em Vídeo (Video-Next-Event Prediction - VNEP). Enquanto a tarefa NEP estabelecida recebe um vídeo com uma questão processual ou preditiva como entrada para prever o próximo evento em texto, a VNEP exige respostas dinâmicas em vídeo. Essa mudança de "dizer" para "mostrar" desbloqueia respostas mais intuitivas e personalizadas para a aprendizagem processual e a exploração criativa. No entanto, essa tarefa permanece desafiadora para os modelos existentes, pois exige a compreensão de entrada multimodal, o raciocínio condicionado por instruções e a geração de vídeo com consistência visual e semântica. Para enfrentar isso, introduzimos o VANS, um modelo que aproveita o aprendizado por reforço para alinhar um Modelo de Visão e Linguagem (Vision-Language Model - VLM) com um Modelo de Difusão de Vídeo (Video Diffusion Model - VDM) para a VNEP. O cerne do VANS é o nosso Joint-GRPO proposto, que orquestra o VLM e o VDM para funcionarem como uma unidade. Orientado por uma recompensa compartilhada sobre suas respectivas saídas, ele otimiza o VLM para produzir legendas que são precisas e fáceis de visualizar, ao mesmo tempo que guia o VDM para gerar vídeos que são fiéis a essas legendas e ao contexto visual de entrada. Para viabilizar esse aprendizado, criamos o VANS-Data-100K, um conjunto de dados dedicado à tarefa VNEP. Experimentos em benchmarks processuais e preditivos demonstram que o VANS atinge um desempenho de ponta tanto na predição quanto na visualização de eventos em vídeo. Os códigos estão disponíveis em https://github.com/KlingTeam/VANS.
Treinar uma família de modelos de linguagem de grande escala direcionada a múltiplas escalas e objetivos de implantação é proibitivamente caro, exigindo execuções de treinamento separadas para cada tamanho diferente. Trabalhos recentes sobre compressão de modelos por meio de poda e destilação de conhecimento reduziram esse custo; no entanto, esse processo ainda incorre em custos de treinamento equivalentes a centenas de bilhões de tokens por modelo comprimido. Neste artigo, apresentamos o Nemotron Elastic, uma estrutura para construir LLMs orientados para raciocínio, incluindo arquiteturas híbridas Mamba-Atenção, que incorporam múltiplos submodelos aninhados dentro de um único modelo pai, cada um otimizado para diferentes configurações de implantação e orçamentos. Cada um desses submodelos compartilha pesos com o modelo pai e pode ser extraído *zero-shot* durante a implantação sem treinamento ou ajuste fino adicionais. Habilitamos essa funcionalidade por meio de um roteador treinado de ponta a ponta, fortemente acoplado a um currículo de treinamento em dois estágios projetado especificamente para modelos de raciocínio. Adicionalmente, introduzimos a elastificação SSM com consciência de grupo, que preserva as restrições estruturais do Mamba, a elastificação heterogênea de MLP, a importância de camada baseada em MSE normalizado para uma seleção de profundidade aprimorada, e a destilação de conhecimento que permite a otimização simultânea de múltiplos orçamentos. Aplicamos o Nemotron Elastic ao modelo Nemotron Nano V2 12B, produzindo simultaneamente um modelo de 9B e um de 6B usando apenas 110B de tokens de treinamento; isso resulta em uma redução de custo superior a 360x em comparação com o treinamento de famílias de modelos do zero, e cerca de 7x em comparação com as técnicas de compressão SoTA. Cada um dos modelos aninhados apresenta desempenho igual ou superior ao SoTA em precisão. Além disso, ao contrário de outros métodos de compressão, a capacidade aninhada da nossa abordagem permite ter um modelo de raciocínio múltiplo-em-um que possui memória de implantação constante em relação ao número de modelos na família.
Lançamos em código aberto o MiMo-Embodied, o primeiro modelo de base cross-embodied a integrar com sucesso e alcançar desempenho de ponta tanto em Condução Autónoma como em IA Embutida. O MiMo-Embodied estabelece novos recordes em 17 benchmarks de IA embutida nas áreas de Planeamento de Tarefas, Previsão de *Affordance* e Compreensão Espacial, ao mesmo tempo que se destaca em 12 benchmarks de condução autónoma nas áreas de Perceção Ambiental, Previsão de Estado e Planeamento de Condução. Nestas tarefas, o MiMo-Embodied supera significativamente as linhas de base existentes, sejam de código aberto, fechado ou especializadas. Os nossos resultados indicam que, através de aprendizagem multiestágio, construção curada de dados e afinação por CoT/RL, estes dois domínios exibem uma forte transferência positiva e reforçam-se mutuamente. Fornecemos uma análise detalhada do nosso modelo de conceção e metodologias de treino para facilitar investigações futuras. O código e os modelos estão disponíveis em https://github.com/XiaomiMiMo/MiMo-Embodied.
Os sistemas neurais de recuperação de informação destacam-se em idiomas de alta disponibilidade de recursos, mas permanecem pouco explorados para línguas morfologicamente ricas e de menor recurso, como o turco. Os bi-encoders densos atualmente dominam a RI turca, no entanto, os modelos de interação tardia – que retêm representações a nível de token para correspondência de granularidade fina – não foram avaliados sistematicamente. Apresentamos o TurkColBERT, o primeiro benchmark abrangente que compara codificadores densos e modelos de interação tardia para recuperação em turco. Nosso pipeline de adaptação em dois estágios ajusta finamente codificadores em inglês e multilingues em tarefas turcas de NLI/STS, depois converte-os em recuperadores no estilo ColBERT usando o PyLate treinado no MS MARCO-TR. Avaliamos 10 modelos em cinco conjuntos de dados turcos BEIR, abrangendo domínios científicos, financeiros e argumentativos. Os resultados mostram uma forte eficiência paramétrica: o colbert-hash-nano-tr, com 1.0 milhão de parâmetros, é 600 vezes menor que o codificador denso turkish-e5-large (600M) enquanto preserva mais de 71% da sua mAP média. Modelos de interação tardia que são 3 a 5 vezes menores que os codificadores densos superam-nos significativamente; o ColmmBERT-base-TR produz ganhos de até +13,8% em mAP em tarefas específicas de domínio. Para prontidão de produção, comparamos algoritmos de indexação: MUVERA+Rerank é 3,33 vezes mais rápido que o PLAID e oferece um ganho relativo de +1,7% em mAP. Isso permite recuperação de baixa latência, com o ColmmBERT-base-TR atingindo tempos de consulta de 0,54 ms sob MUVERA. Disponibilizamos todos os *checkpoints*, configurações e scripts de avaliação. As limitações incluem a dependência de conjuntos de dados de tamanho moderado (≤50K documentos) e *benchmarks* traduzidos, que podem não refletir totalmente as condições reais de recuperação em turco; avaliações em larga escala com o MUVERA ainda são necessárias.
Os modelos Visão-Linguagem-Ação (VLA) destacam-se na manipulação robótica, mas são limitados pela sua forte dependência de demonstrações especializadas, o que leva a um viés demonstrativo e restringe o desempenho. O aprendizado por reforço (RL) é uma estratégia vital de pós-treinamento para superar esses limites, porém os métodos atuais de VLA-RL, incluindo abordagens de otimização baseadas em grupos, são prejudicados por uma severa esparsidade de recompensa. Depender de indicadores binários de sucesso desperdiça informações valiosas em trajetórias fracassadas, resultando em baixa eficiência de treinamento. Para resolver isso, propomos a Otimização de Política Autorreferencial (SRPO), uma nova estrutura VLA-RL. A SRPO elimina a necessidade de demonstrações externas ou engenharia manual de recompensas, aproveitando as próprias trajetórias bem-sucedidas do modelo, geradas no lote de treinamento atual, como uma autorreferência. Isso nos permite atribuir uma recompensa progressiva a tentativas fracassadas. Uma inovação central é o uso de representações latentes do mundo para medir o progresso comportamental de forma robusta. Em vez de depender de pixels brutos ou exigir ajuste fino específico de domínio, utilizamos as codificações compactas e transferíveis do espaço latente de um modelo mundial. Essas representações capturam naturalmente padrões de progresso entre ambientes, permitindo uma comparação precisa e generalizada de trajetórias. Avaliações empíricas no benchmark LIBERO demonstram a eficiência e eficácia da SRPO. Partindo de uma linha de base supervisionada com 48,9% de sucesso, a SRPO alcança uma nova taxa de sucesso state-of-the-art de 99,2% em apenas 200 passos de RL, representando uma melhoria relativa de 103% sem qualquer supervisão extra. Além disso, a SRPO mostra substancial robustez, alcançando uma melhoria de desempenho de 167% no benchmark LIBERO-Plus.
Hospitais e sistemas de saúde dependem de decisões operacionais que determinam o fluxo de pacientes, os custos e a qualidade do atendimento. Apesar do forte desempenho em benchmarks de conhecimento médico e conversacionais, os modelos de base (foundation models) treinados em texto genérico podem carecer do conhecimento especializado necessário para essas decisões operacionais. Apresentamos a Lang1, uma família de modelos (100M-7B de parâmetros) pré-treinada em um corpus especializado que combina 80B de tokens clínicos dos prontuários eletrônicos de saúde (EHR) do NYU Langone Health e 627B de tokens da internet. Para avaliar rigorosamente a Lang1 em contextos do mundo real, desenvolvemos a REalistic Medical Evaluation (ReMedE), um benchmark derivado de 668.331 notas de EHR que avalia cinco tarefas críticas: previsão de readmissão em 30 dias, previsão de mortalidade em 30 dias, tempo de permanência, codificação de comorbidades e previsão de negação de sinistros de seguro. Em configurações zero-shot, tanto os modelos de propósito geral quanto os especializados apresentam desempenho inferior em quatro das cinco tarefas (36,6%-71,7% AUROC), sendo a previsão de mortalidade uma exceção. Após o ajuste fino (finetuning), o Lang1-1B supera modelos generalistas ajustados com até 70x o seu tamanho e modelos zero-shot com até 671x o seu tamanho, melhorando o AUROC em 3,64%-6,75% e 1,66%-23,66%, respectivamente. Também observamos escalonamento cruzado de tarefas, com o ajuste fino conjunto em múltiplas tarefas levando a melhorias em outras tarefas. O Lang1-1B transfere-se efetivamente para configurações fora da distribuição, incluindo outras tarefas clínicas e um sistema de saúde externo. Nossos achados sugerem que as capacidades preditivas para operações hospitalares requerem ajuste fino supervisionado explícito, e que esse processo de ajuste fino é tornado mais eficiente pelo pré-treinamento no domínio específico de EHR. Nossos resultados corroboram a visão emergente de que LLMs especializados podem competir com modelos generalistas em tarefas especializadas e mostram que uma IA eficaz para sistemas de saúde requer a combinação de pré-treinamento no domínio, ajuste fino supervisionado e avaliação no mundo real para além de benchmarks substitutos.
Apresentamos o NaTex, uma estrutura de geração de texturas nativa que prevê a cor da textura diretamente no espaço 3D. Em contraste com abordagens anteriores que dependem do "cozimento" (baking) de imagens 2D multi-visão sintetizadas por modelos de Difusão Multi-Visão condicionados por geometria (MVDs), o NaTex evita várias limitações inerentes ao pipeline MVD. Estas incluem dificuldades em lidar com regiões ocluídas que requerem preenchimento (inpainting), alcançar um alinhamento preciso entre a malha e a textura ao longo das fronteiras e manter a consistência e coerência entre vistas, tanto no conteúdo quanto na intensidade da cor. O NaTex apresenta um novo paradigma que aborda os problemas mencionados ao tratar a textura como uma nuvem densa de pontos de cor. Guiados por esta ideia, propomos a difusão latente de cor, que compreende um VAE de nuvem de pontos de cor consciente da geometria e um transformador de difusão com multi-controle (DiT), totalmente treinado desde o início usando dados 3D, para reconstrução e geração de texturas. Para permitir um alinhamento preciso, introduzimos um controle de geometria nativo que condiciona o DiT com informações espaciais 3D diretas por meio de incorporações posicionais (positional embeddings) e latentes geométricos. Co-projetamos a arquitetura VAE-DiT, na qual os latentes geométricos são extraídos por meio de um ramo de geometria dedicado, fortemente acoplado ao VAE de cor, fornecendo uma orientação de superfície de granularidade fina que mantém uma forte correspondência com a textura. Com estes projetos, o NaTex demonstra um forte desempenho, superando significativamente os métodos anteriores em coerência e alinhamento de texturas. Além disso, o NaTex também exibe fortes capacidades de generalização, seja sem necessidade de treino adicional (training-free) ou com ajustes simples, para várias aplicações subsequentes, por exemplo, geração de materiais, refinamento de textura, e segmentação e texturização de partes.
Os avanços recentes na geração visual têm explorado cada vez mais a integração de capacidades de raciocínio. Essas abordagens incorporam raciocínio textual – ou seja, "pensam" – seja antes (como pré-planejamento) ou depois (como pós-refinamento) do processo de geração, mas carecem de interação multimodal em tempo real durante a própria geração. Neste estudo preliminar, introduzimos o Pensar-enquanto-Gera (TwiG), o primeiro framework intercalado que permite a coevolução do raciocínio textual ao longo do processo de geração visual. À medida que o conteúdo visual é gerado progressivamente, o raciocínio textual é intercalado para orientar as próximas regiões locais e refletir sobre as previamente sintetizadas. Esta interação dinâmica produz resultados visuais mais conscientes do contexto e semanticamente mais ricos. Para revelar o potencial deste framework, investigamos três estratégias candidatas: prompting zero-shot, ajuste fino supervisionado (SFT) em nosso conjunto de dados TwiG-50K curado e aprendizagem por reforço (RL) através de uma estratégia personalizada TwiG-GRPO, cada uma oferecendo insights únicos sobre a dinâmica do raciocínio intercalado. Esperamos que este trabalho inspire novas pesquisas sobre a intercalação do raciocínio textual para geração visual aprimorada. O código será disponibilizado em: https://github.com/ZiyuGuo99/Thinking-while-Generating.
Apresentamos o TimeViper, um modelo híbrido de visão e linguagem concebido para enfrentar os desafios da compreensão de vídeos longos. O processamento de vídeos longos exige tanto uma arquitetura de modelo eficiente quanto um mecanismo eficaz para lidar com contextos temporais extensos. Para tal, o TimeViper adota uma estrutura híbrida Mamba-Transformer que combina a eficiência dos modelos de espaço de estados com a expressividade dos mecanismos de atenção. Através deste design híbrido, revelamos o fenômeno de agregação de informação visão-para-texto, no qual a informação flui progressivamente dos tokens visuais para os tokens textuais à medida que a profundidade do LLM aumenta, resultando numa severa redundância dos tokens visuais. Motivados por esta observação, propomos o TransV, um módulo de transferência de informação de tokens que transfere e comprime os tokens visuais em tokens de instrução, mantendo as capacidades de compreensão multimodal. Este design permite ao TimeViper processar vídeos com horas de duração que excedem 10.000 frames. Extensos experimentos em múltiplos benchmarks demonstram que o TimeViper compete com os modelos state-of-the-art enquanto estende o número de frames. Analisamos ainda os comportamentos de atenção tanto das camadas Mamba como das Transformer, oferecendo novas perspetivas sobre a interpretabilidade dos modelos híbridos. Este trabalho representa um passo inicial no desenvolvimento, interpretação e compressão de arquiteturas híbridas Mamba-Transformer.
A segmentação de vídeos cirúrgicos é crucial para a cirurgia assistida por computador, permitindo a localização e o rastreamento precisos de instrumentos e tecidos. Modelos de Segmentação Interativa de Objetos em Vídeo (iVOS), como o Segment Anything Model 2 (SAM2), oferecem flexibilidade baseada em *prompts*, indo além de métodos com categorias predefinidas, mas enfrentam desafios em cenários cirúrgicos devido à diferença de domínio e ao rastreamento de longo prazo limitado. Para superar essas limitações, construímos o SA-SV, o maior benchmark de iVOS cirúrgico com anotações espaço-temporais em nível de instância (*masklets*) abrangendo oito tipos de procedimentos (61k quadros, 1.6k *masklets*), permitindo o desenvolvimento e avaliação abrangentes para rastreamento de longo prazo e generalização *zero-shot*. Com base no SA-SV, propomos o SAM2S, um modelo de base que aprimora o SAM2 para iVOS Cirúrgico através de: (1) DiveMem, um mecanismo de memória diversificável e treinável para rastreamento de longo prazo robusto; (2) aprendizado de semântica temporal para compreensão de instrumentos; e (3) aprendizado resiliente a ambiguidades para mitigar inconsistências de anotação em conjuntos de dados de múltiplas fontes. Experimentos extensivos demonstram que o ajuste fino no SA-SV permite ganhos substanciais de desempenho, com o SAM2 melhorando em 12.99 de J\&F médio em relação ao SAM2 padrão. O SAM2S avança ainda mais o desempenho para 80.42 de J\&F médio, superando o SAM2 padrão e o com ajuste fino em 17.10 e 4.11 pontos, respectivamente, mantendo inferência em tempo real de 68 FPS e forte generalização *zero-shot*. O código e o conjunto de dados serão disponibilizados em https://jinlab-imvr.github.io/SAM2S.
O mapeamento UV (UV unwrapping) planifica superfícies 3D para 2D com distorção mínima, frequentemente exigindo que a superfície complexa seja decomposta em múltiplos *charts* (ilhas). Apesar de ser um tema amplamente estudado, os métodos existentes de mapeamento UV frequentemente enfrentam dificuldades com malhas geradas por IA, que são tipicamente ruidosas, irregulares e mal condicionadas. Esses métodos geralmente produzem *charts* altamente fragmentados e limites subótimos, introduzindo artefatos e prejudicando tarefas subsequentes. Apresentamos o PartUV, um *pipeline* de mapeamento UV baseado em partes que gera *charts* significativamente menos numerosos, alinhados semanticamente com as partes do objeto, mantendo baixa distorção. Construído sobre um método recente baseado em aprendizado para decomposição em partes, o PartField, o PartUV combina a decomposição semântica de alto nível de partes com novas heurísticas geométricas em um *framework* recursivo *top-down*. Ele garante que a distorção de cada *chart* permaneça abaixo de um limiar especificado pelo usuário, enquanto minimiza o número total de *charts*. O *pipeline* integra e estende algoritmos de parametrização e empacotamento, incorpora tratamento dedicado para malhas não múltiplas (*non-manifold*) e degeneradas, e é extensivamente paralelizado para eficiência. Avaliado em quatro conjuntos de dados diversos, incluindo objetos manufacturados, CAD, gerados por IA e Formas Comuns, o PartUV supera ferramentas existentes e métodos neurais recentes em contagem de *charts* e comprimento de costuras (*seam length*), alcança distorção comparável, exibe altas taxas de sucesso em malhas desafiadoras e permite novas aplicações, como o empacotamento com múltiplos *tiles* específicos por parte. Nossa página do projeto está em https://www.zhaoningwang.com/PartUV.
O treinamento de longo prazo de grandes modelos de linguagem (LLMs) requer a manutenção de uma exploração estável para evitar que o modelo colapse em comportamentos subótimos. A entropia é crucial neste contexto, pois controla a exploração e ajuda a evitar a convergência prematura para soluções subótimas. No entanto, os métodos de aprendizagem por reforço existentes lutam para manter um nível adequado de entropia, uma vez que o processo de treinamento envolve uma mistura de amostras positivas e negativas, cada uma afetando a entropia de maneiras diferentes ao longo das etapas. Para resolver isso, propomos a Estabilização de Entropia via Controle Proporcional-Integral (EntroPIC), um método novo que ajusta adaptativamente a influência das amostras positivas e negativas por meio da sintonia dinâmica dos seus coeficientes de perda. Esta abordagem estabiliza a entropia durante todo o treinamento, garantindo uma exploração eficiente e um progresso constante. Apresentamos uma análise teórica abrangente para configurações de aprendizagem *on-policy* e *off-policy*, demonstrando que o EntroPIC é eficaz no controle da entropia no treinamento de LLMs em larga escala. Resultados experimentais mostram que o nosso método mantém com sucesso os níveis de entropia desejados, permitindo um treinamento por RL estável e ótimo para LLMs.
As arquiteturas baseadas em Transformer são amplamente adotadas em sistemas de recomendação sequencial, porém sua aplicação em Serviços Financeiros (SF) apresenta desafios práticos e de modelagem distintos para recomendação em tempo real. Estes incluem: a) interações de usuário de longo alcance (implícitas e explícitas) abrangendo canais digitais e físicos, gerando contexto temporalmente heterogêneo; b) a presença de múltiplos produtos inter-relacionados exigindo modelos coordenados para suportar diferentes posicionamentos de anúncios e feeds personalizados, enquanto equilibra objetivos de negócio concorrentes. Propomos o FinTRec, um framework baseado em Transformer que aborda esses desafios e seus objetivos operacionais em SF. Embora modelos baseados em árvore tenham sido tradicionalmente preferidos em SF devido à sua explicabilidade e alinhamento com requisitos regulatórios, nosso estudo demonstra que o FinTRec oferece uma transição viável e eficaz para arquiteturas baseadas em Transformer. Através de simulação histórica e correlações de testes A/B em produção, mostramos que o FinTRec supera consistentemente a linha de base baseada em árvore de nível de produção. A arquitetura unificada, quando ajustada para adaptação de produto, permite o compartilhamento de sinais entre produtos, reduz custos de treinamento e dívida técnica, enquanto melhora o desempenho offline em todos os produtos. Até onde sabemos, este é o primeiro estudo abrangente de modelagem unificada de recomendação sequencial em SF que aborda considerações técnicas e de negócio.
Embora os modelos visuais-linguísticos de grande porte (LVLMs) recentes exibam fortes capacidades de raciocínio multimodal, eles frequentemente produzem respostas infundadas ou alucinadas porque dependem excessivamente de prioridades linguísticas em vez de evidências visuais. Essa limitação destaca a ausência de uma medida quantitativa de quanto esses modelos realmente usam informações visuais durante o raciocínio. Propomos o Draft and Refine (DnR), uma arquitetura de agente orientada por uma métrica de utilização condicionada à pergunta. A métrica quantifica a dependência do modelo em evidências visuais primeiro construindo um mapa de relevância condicionado à consulta para localizar pistas específicas da pergunta e, em seguida, medindo a dependência por meio de mascaramento probabilístico guiado por relevância. Orientado por essa métrica, o agente DnR refina seu rascunho inicial usando feedback direcionado de especialistas visuais externos. A saída de cada especialista (como caixas delimitadoras ou máscaras) é renderizada como pistas visuais na imagem, e o modelo é reconsultado para selecionar a resposta que produz o maior ganho na utilização. Esse processo fortalece o embasamento visual sem necessidade de retreinamento ou alterações arquiteturais. Experimentos em benchmarks de VQA e legendagem mostram ganhos consistentes de precisão e redução de alucinações, demonstrando que medir a utilização visual fornece um caminho fundamentado para sistemas de agentes multimodais mais interpretáveis e baseados em evidências.
A precisão de transferência por sonda linear do ImageNet-1K permanece o proxy padrão para a qualidade da representação visual, mas já não prevê o desempenho em imagens científicas. Em 46 *checkpoints* de modelos de visão modernos, a precisão top-1 do ImageNet explica apenas 34% da variância em tarefas de ecologia e classifica incorretamente 30% dos modelos com precisão acima de 75%. Apresentamos o BioBench, um *benchmark* de visão computacional para ecologia de código aberto que captura o que o ImageNet omite. O BioBench unifica 9 tarefas publicamente disponíveis e orientadas por aplicação, 4 reinos taxonómicos e 6 modalidades de aquisição (RGB de drone, vídeo da web, micrografias, fotos *in-situ* e de espécimes, *frames* de câmeras-armadilha), totalizando 3,1 milhões de imagens. Uma única API Python faz o *download* dos dados, ajusta classificadores leves a *backbones* congelados e reporta o macro-F1 balanceado por classe (além de métricas de domínio para FishNet e FungiCLEF); modelos ViT-L avaliam em 6 horas numa GPU A6000. O BioBench fornece um novo sinal para a visão computacional na ecologia e um modelo de receita para a construção de *benchmarks* confiáveis de IA para a ciência em qualquer domínio. O código e as previsões estão disponíveis em https://github.com/samuelstevens/biobench e os resultados em https://samuelstevens.me/biobench.
Os avanços recentes no pré-treinamento de imagem-texto melhoraram significativamente a compreensão visual através do alinhamento de representações visuais e textuais. O Pré-treinamento de Linguagem-Imagem Contrastivo (CLIP) tem desempenhado um papel fundamental na aprendizagem multimodal. No entanto, o seu foco no alinhamento de granularidade única e rótulo único limita sua eficácia em domínios complexos, como a imagem médica, onde as imagens frequentemente correspondem a múltiplos rótulos de alto nível (por exemplo, categorias de doenças) em diferentes granularidades de anotação (por exemplo, descrição diagnóstica, explicação clínica). Para resolver isso, propomos a Aprendizagem de Linguagem Multi-Granular (MGLL), uma estrutura de aprendizagem contrastiva projetada para melhorar o alinhamento multi-rótulo e cross-granularidade. A MGLL aproveita a supervisão estruturada de múltiplos rótulos, integra descrições textuais entre granularidades e introduz supervisão de rótulos suaves com restrições ponto a ponto para melhorar o alinhamento. A MGLL emprege a divergência de Kullback-Leibler (KL) suave para garantir a consistência cross-granularidade, mantendo a eficiência computacional como um módulo plug-and-play para modelos de visão-linguagem. Pré-treinada nos nossos conjuntos de dados multi-granulares de larga escala construídos e avaliada em vários conjuntos de dados, a MGLL supera outros métodos state-of-the-art em tarefas downstream. O código está disponível em https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.