번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 추론 능력은 오랫동안 연구의 초점이 되어 왔다. 최근 연구들은 강화 학습(RL)을 활용하여 이러한 능력을 더욱 향상시켰으며, 많은 새로운 방법들이 최소한의 외부 감독 또는 감독 없이도 상당한 개선을 주장하고 있다. 놀랍게도, 일부 연구에서는 무작위 또는 잘못된 보상 신호가 추론 성능을 향상시킬 수 있다고 제안하기도 한다. 그러나 이러한 돌파구는 주로 Qwen2.5 모델 패밀리에서 보고되며, MATH-500, AMC, AIME와 같은 잘 알려진 벤치마크에서 평가된 반면, Llama와 같은 다른 모델에서는 유사한 성과를 달성하지 못해 추가 연구가 필요하다. 우리의 분석에 따르면, Qwen2.5는 강력한 수학적 추론 성능을 달성하지만, 대규모 웹 코퍼스에 대한 사전 학습으로 인해 인기 있는 벤치마크에서 데이터 오염에 취약하다. 결과적으로, 이러한 벤치마크에서 도출된 결과는 신뢰할 수 없을 가능성이 있다. 이를 해결하기 위해, 우리는 임의의 길이와 난이도의 완전히 합성된 산술 문제를 생성하는 생성기를 도입하여 RandomCalculation이라는 깨끗한 데이터셋을 생성한다. 이러한 누출 없는 데이터셋을 사용하여, 정확한 보상 신호만이 일관적으로 성능을 향상시키는 반면, 노이즈가 있거나 잘못된 신호는 그렇지 않음을 보여준다. 우리는 신뢰할 수 있는 결론을 보장하기 위해 오염되지 않은 벤치마크와 다양한 모델 패밀리에서 RL 방법을 평가할 것을 주장한다.
언어 모델의 규모 확장은 인상적인 성능을 발휘하지만, 이에 수반되는 계산 및 메모리 요구량으로 인해 학습과 배포 모두 비용이 많이 든다. 기존의 효율성 개선 노력은 일반적으로 매개변수 공유 또는 적응형 계산 중 하나를 대상으로 하여, 두 가지를 동시에 달성하는 방법에 대한 의문을 남겼다. 본 연구에서는 Mixture-of-Recursions(MoR)를 소개한다. MoR는 단일 Recursive Transformer 내에서 두 가지 효율성 축을 결합한 통합 프레임워크로, 재귀 단계 간 공유된 레이어 스택을 재사용하여 매개변수 효율성을 달성한다. 동시에 경량 라우터는 개별 토큰에 서로 다른 재귀 깊이를 동적으로 할당함으로써 적응형 토큰 수준 사고를 가능하게 한다. 이를 통해 MoR는 주어진 재귀 깊이에서 여전히 활성화된 토큰들 간에만 이차적 주의 계산을 집중시키고, 이들의 키-값 쌍만 선택적으로 캐싱함으로써 메모리 접근 효율성을 더욱 개선한다. 이러한 핵심 메커니즘 외에도, 첫 번째 재귀에서의 키-값 쌍을 재사용하는 KV 공유 변형을 제안하여, 특히 프리필 지연 시간과 메모리 사용량을 줄이도록 설계하였다. 135M에서 1.7B 매개변수에 이르는 다양한 모델 규모에서 MoR는 새로운 파레토 최적점을 형성한다: 동일한 학습 FLOPs와 더 작은 모델 크기에서, 검증 perplexity를 크게 낮추고 few-shot 정확도를 향상시키며, 기본 및 기존 재귀 모델 대비 더 높은 처리량을 제공한다. 이러한 성과는 MoR가 대규모 모델의 품질을 유지하면서도 대규모 모델의 비용을 발생시키지 않는 효과적인 접근법임을 입증한다.
대규모 모델의 급속한 발전은 디지털 휴먼 분야에서 중요한 돌파구를 마련했다. 이러한 첨단 방법론은 아바타 구동 및 렌더링을 위한 고해상도 솔루션을 제공하며, 학계는 다음 주요 도전 과제인 오디오-비주얼 이중 상호작용 가상 휴먼에 주목하고 있다. 이 신흥 분야의 연구를 촉진하기 위해, 우리는 오디오-비주얼 이중 상호작용 가상 휴먼 생성을 위해 설계된 첫 번째 대규모 고품질 데이터셋인 SpeakerVid-5M 데이터셋을 소개한다. 총 8,743시간 이상의 SpeakerVid-5M은 520만 개 이상의 인간 초상 비디오 클립을 포함한다. 이 데이터셋은 단일 대화, 듣기, 이중 대화 등 다양한 규모와 상호작용 유형을 포괄한다. 특히, 이 데이터셋은 상호작용 유형과 데이터 품질이라는 두 가지 핵심 차원을 따라 구조화되었다. 첫째, 상호작용 시나리오에 따라 네 가지 유형(대화 분기, 단일 분기, 듣기 분기 및 다중 턴 분기)으로 분류된다. 둘째, 대규모 사전 학습 서브셋과 지도 미세 조정(SFT)을 위한 선별된 고품질 서브셋으로 계층화된다. 이 이중 구조는 다양한 2D 가상 휴먼 작업을 수용한다. 또한, 이 데이터를 기반으로 훈련된 자기회귀(AR) 기반 비디오 채팅 베이스라인과 함께, 미래 작업을 위한 벤치마크 VidChatBench로 사용할 전용 메트릭 및 테스트 데이터 세트를 제공한다. 데이터셋과 해당 데이터 처리 코드는 공개될 예정이다. 프로젝트 페이지: https://dorniwang.github.io/SpeakerVid-5M/
최근의 고급 시각-언어 모델(VLMs)은 수동적이고 오프라인 상태의 이미지 및 비디오 이해 작업에서 강력한 성능을 보여주고 있다. 그러나 온라인 상호작용과 능동적인 장면 이해가 필요한 체화된 환경에서의 효과성은 여전히 제한적이다. 이러한 시나리오에서 에이전트는 1인칭 시점으로 환경을 인지하며, 각 행동이 후속 관찰을 동적으로 형성한다. GPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro와 같은 최첨단 모델들도 개방형 환경 상호작용에서 어려움을 겪으며, 공간 추론과 장기적 계획에서 명확한 한계를 보인다. 이러한 격차를 해결하기 위해, 우리는 Unreal Engine과 UnrealCV-Zoo 프레임워크를 사용하여 구축된 다양한 포토리얼리스틱 환경에 위치한 3,000개 이상의 언어-지시 작업 데이터셋인 EmRACE-3K를 소개한다. 이 작업들은 탐색, 객체 조작, 다단계 목표 실행을 포함한 다양한 체화된 도전 과제를 포괄한다. 각 작업은 다단계 궤적으로 전개되며, 1인칭 시각 관찰을 고수준 지시, 근거 있는 행동, 그리고 각 단계에서 에이전트의 의도를 표현하는 자연어 논리와 짝을 이룬다. EmRACE-3K를 사용하여, 우리는 탐색, 동적 공간-의미론적 추론, 다단계 목표 실행이라는 세 가지 핵심 차원에서 VLMs의 체화된 추론 능력을 평가하기 위한 벤치마크를 설정한다. 제로샷 설정에서 모든 모델은 20% 미만의 성공률을 보이며, 우리의 벤치마크가 제기하는 도전과 상호작용 환경에서 VLMs의 현재 한계를 강조한다. EmRACE-3K의 유용성을 입증하기 위해, 우리는 지도 학습과 강화 학습을 통해 Qwen2.5-VL-7B를 추가로 미세 조정한다. 이 접근법은 세 가지 도전 범주 모두에서 상당한 개선을 가져오며, 체화된 추론 능력 개발을 가능하게 하는 데이터셋의 효과성을 강조한다.
최근 대규모 추론 모델(Large Reasoning Models, LRMs)은 특정 작업에 대한 벤치마크에서 놀라운 성과를 거두었지만, 그 평가 방법은 여전히 고립된 문제 해결 패러다임에 의해 제한되고 있다. 기존 벤치마크는 주로 순차적 테스트를 통해 단일 질문 추론을 평가하는데, 이는 다음과 같은 중요한 한계를 초래한다: (1) 데이터 오염에 취약하고 도전적이지 않은 문제(예: DeepSeek-R1이 MATH500에서 97.0% 달성)로 인해 새로운 질문을 지속적으로 생성해야 하며, 이는 많은 인적 노력을 요구한다. (2) 실제 세계 배포에 필수적인 다중 문맥 압력 하에서 모델을 평가하지 못한다. 이러한 격차를 해소하기 위해, 우리는 REST(Reasoning Evaluation through Simultaneous Testing)를 제안한다. REST는 LRMs를 동시에 여러 문제에 노출시키는 스트레스 테스트 프레임워크이다. 기본 추론 능력 외에도, REST는 특히 문맥적 우선순위 할당, 교차 문제 간섭 저항, 동적 인지 부하 관리와 같은 평가가 충분히 이루어지지 않은 능력을 평가한다. 우리의 평가 결과는 다음과 같은 주목할 만한 발견을 보여준다: DeepSeek-R1과 같은 최첨단(SOTA) 모델도 스트레스 테스트 하에서 상당한 성능 저하를 보인다. 중요한 것은, REST가 기존 벤치마크보다 더 강력한 판별력을 보여주며, 단일 질문 평가에서 유사한 천장 성능을 보이는 모델들 사이에서도 뚜렷한 성능 차이를 드러낸다는 점이다. 우리의 분석에서 몇 가지 중요한 기계적 통찰이 도출되었다: (1) "과도한 사고 함정"이 성능 저하에 중요한 요인으로 작용한다. (2) "long2short" 기술로 훈련된 모델들은 REST 하에서도 단일 문제 성능의 정확도를 더 잘 유지하며, 표준 훈련 모델을 능가한다. 이러한 결과는 REST가 실제 세계의 추론 요구를 더 잘 반영하면서도 지속적인 인간 주석에 대한 의존도를 줄이는 비용 효율적이고 미래 지향적인 평가 패러다임임을 입증한다.
본 논문에서는 단일 모노큘러 비디오로부터 4D 동적 신규 시점을 1초 만에 합성하는 새로운 피드포워드 모델인 MoVieS를 소개한다. MoVieS는 픽셀 정렬된 가우시안 프리미티브 그리드를 사용하여 동적 3D 장면을 표현하며, 이들의 시간에 따른 움직임을 명시적으로 지도한다. 이를 통해 처음으로 외관, 기하학 및 움직임의 통합 모델링이 가능해졌으며, 단일 학습 기반 프레임워크 내에서 시점 합성, 재구성 및 3D 포인트 추적을 수행할 수 있다. 신규 시점 합성과 동적 기하학 재구성을 연결함으로써, MoVieS는 다양한 데이터셋에 대한 대규모 학습을 가능하게 하며, 작업별 지도에 대한 의존도를 최소화한다. 결과적으로, 장면 흐름 추정 및 이동 물체 분할과 같은 다양한 제로샷 응용을 자연스럽게 지원한다. 광범위한 실험을 통해 MoVieS의 효과성과 효율성을 다중 작업에 걸쳐 검증하였으며, 경쟁력 있는 성능을 달성하면서도 수 배의 속도 향상을 제공한다.
대규모 언어 모델(LLMs)은 자연어 이해 및 생성에 탁월한 성능을 보이지만, 사실 오류에 취약하여 지식 집약적 작업에서의 신뢰성이 제한적입니다. 디코딩 시점 전략은 추가 학습 없이도 효율적인 해결책을 제공하지만, 기존 방법들은 일반적으로 토큰 수준과 계층 수준 신호를 독립적으로 처리하며 이들 간의 상호작용을 간과합니다. 본 연구에서는 특정 토큰 유형을 가장 영향력 있는 트랜스포머 계층과 정렬하여 사실적 생성을 개선하는 토큰 인식, 계층 국소화 대조 디코딩 방법을 제안합니다. 실증적 주의력 분석을 통해 두 가지 주요 패턴을 확인했습니다: 구두점 토큰은 초기 계층에서 지배적인 주의를 받는 반면, 개념 토큰은 중간 계층에서 의미론적 추론을 주도합니다. 이러한 토큰 유형에 대한 주의력을 각각의 깊이에서 선택적으로 억제함으로써, 통제된 사실적 저하를 유도하고 최종 사실 디코딩을 안내하는 대조 신호를 도출합니다. 우리의 방법은 추가 학습이나 모델 수정이 필요하지 않으며, 실험 결과는 여러 LLMs와 다양한 벤치마크에서 사실성을 지속적으로 개선함을 보여줍니다.
최근 대규모 언어 모델(LLM) 평가에서 LLM-as-judge의 역할이 주목받고 있다. 그러나 현재의 판단 모델은 좁은 전문화와 제한된 견고성으로 인해 포괄적인 평가 능력이 저해되고 있다. 본 연구에서는 이러한 한계를 극복하기 위해 작업 중심의 다중 도메인 데이터 큐레이션 전략을 통해 새로운 일반주의 판단 모델인 CompassJudger-2를 제안한다. 우리의 접근 방식의 핵심은 검증 가능한 보상으로 판단 작업을 감독하고, 거부 샘플링을 통해 내재적 비판적 사고를 유도하여 견고하고 일반화 가능한 판단 능력을 키우는 것이다. 또한, 성능을 향상시키기 위해 마진 정책 그래디언트 손실을 포함한 정제된 학습 목표를 도입하였다. 실험적으로, CompassJudger-2는 여러 판단 및 보상 벤치마크에서 우수한 결과를 달성했으며, 7B 모델은 DeepSeek-V3 및 Qwen3-235B-A22B와 같은 훨씬 더 큰 모델과 경쟁력 있는 판단 정확도를 보여주었다. 또한, 판단 모델 평가를 표준화하기 위해 교차 도메인 판단 정확도와 순위 일관성을 평가하는 포괄적인 벤치마크인 JudgerBenchV2를 제안한다. 이러한 기여는 견고하고 확장 가능한 LLM 판단을 발전시키고 새로운 성능 및 평가 기준을 확립한다.
대규모 언어 모델(LLMs)의 개발은 학문적 영역뿐만 아니라 산업 분야를 포괄하는 강력한 벤치마크가 필요하며, 이를 통해 실제 현장에서의 적용 가능성을 효과적으로 평가할 수 있다. 본 논문에서는 한국의 전문가 수준 벤치마크 두 가지를 소개한다. 기존 KMMLU를 재구성한 KMMLU-Redux는 한국 국가기술자격시험에서 출제된 문제들로 구성되어 있으며, 신뢰성을 높이기 위해 치명적인 오류를 제거하였다. KMMLU-Pro는 한국 국가전문자격시험을 기반으로 하여 한국의 전문 지식을 반영하였다. 실험 결과, 이들 벤치마크가 한국의 산업 지식을 포괄적으로 대표함을 입증하였다. 본 연구에서 사용된 데이터셋은 공개적으로 제공된다.
다양한 장면에서 일관된 주체 정체성을 유지하는 것을 목표로 하는 주체 일관성 생성(Subject-consistent generation, SCG)은 텍스트-이미지(T2I) 모델에게 여전히 도전적인 과제입니다. 기존의 학습 없이 수행하는 SCG 방법들은 종종 레이아웃과 포즈 다양성을 희생시키면서 일관성을 달성하므로, 표현력 있는 시각적 스토리텔링을 방해합니다. 이러한 한계를 해결하기 위해, 우리는 일관된 주체 생성과 다양한 포즈 및 레이아웃을 가능하게 하는 CoDi라는 주체 일관성 및 포즈 다양성 T2I 프레임워크를 제안합니다. 디퓨전의 점진적 특성, 즉 거친 구조가 초기에 나타나고 세부 사항이 나중에 정제되는 특성에 동기를 받아, CoDi는 두 단계 전략을 채택합니다: 아이덴티티 전송(Identity Transport, IT)과 아이덴티티 정제(Identity Refinement, IR). IT는 초기 노이즈 제거 단계에서 작동하며, 최적 전송을 사용하여 포즈를 고려한 방식으로 각 대상 이미지에 아이덴티티 특징을 전달합니다. 이는 주체 일관성을 촉진하면서도 포즈 다양성을 보존합니다. IR은 후기 노이즈 제거 단계에서 적용되며, 가장 두드러진 아이덴티티 특징을 선택하여 주체 세부 사항을 더욱 정제합니다. 주체 일관성, 포즈 다양성, 프롬프트 충실도에 대한 광범위한 정성적 및 정량적 결과는 CoDi가 더 나은 시각적 인식과 모든 메트릭에서 더 강력한 성능을 달성함을 보여줍니다. 코드는 https://github.com/NJU-PCALab/CoDi에서 제공됩니다.
우리는 사용자가 제공한 이미지와 텍스트 프롬프트를 기반으로 콘텐츠 충실도를 유지하면서도 유연한 해상도와 레이아웃 출력을 지원하는 고품질 포스터를 지능적으로 합성하는 텍스트-이미지 생성 프레임워크인 DreamPoster를 소개합니다. 구체적으로, DreamPoster는 다양한 포스터 생성 유형을 균일하게 처리하기 위해 우리의 T2I 모델인 Seedream3.0을 기반으로 구축되었습니다. 데이터셋 구축을 위해, 우리는 포스터 이미지 내의 텍스트 콘텐츠와 타이포그래피 계층 구조 정보를 정밀하게 주석 처리하는 체계적인 데이터 주석 파이프라인을 제안하며, 원본 자료(예: 원본 그래픽/텍스트)와 그에 해당하는 최종 포스터 출력으로 구성된 짝지어진 데이터셋을 구축하기 위한 포괄적인 방법론을 활용합니다. 또한, 우리는 모델이 고품질 생성을 유지하면서도 다중 작업 생성 능력을 계층적으로 습득할 수 있도록 점진적인 학습 전략을 구현합니다. 테스트 벤치마크에서의 평가 결과, DreamPoster는 기존 방법들에 비해 우수성을 입증하며, GPT-4o(47.56%)와 SeedEdit3.0(25.96%)에 비해 88.55%의 높은 사용성 비율을 달성했습니다. DreamPoster는 Jimeng 및 기타 Bytedance 앱에서 온라인으로 제공될 예정입니다.
대규모 언어 모델(LLMs)의 수학적 추론 능력을 향상시키는 것은 AI 역량을 발전시키는 데 있어 핵심적인 과제이다. 지도 미세 조정(SFT)과 강화 학습(RL)이 지배적인 훈련 패러다임이지만, 정확도와 효율성을 모두 극대화하기 위해 이들을 체계적으로 결합하는 방법론은 아직까지 크게 탐구되지 않았다. 본 논문은 확장된 SFT와 온라인 추론을 통한 RL(GRPO)을 전략적으로 통합한 실용적이고 효과적인 훈련 레시피를 소개한다. 우리는 이러한 방법들이 상호 보완적인 역할을 한다고 주장한다: 장기간의 SFT 단계는 먼저 모델의 정확도를 한계까지 끌어올린 후, GRPO 단계는 이 최고 성능을 유지하면서 토큰 효율성을 극적으로 개선한다. 우리의 실험은 성능의 돌파구를 마련하기 위해 SFT를 최대 10 에포크까지 확장하는 것이 중요하며, 이 프레임워크에서 GRPO의 주요 역할은 해결 길이를 최적화하는 것임을 보여준다. 우리의 레시피의 효능은 엄격한 정보 유출 방지가 적용된 AI 수학 올림피아드(AIMO)에서 2,200개 이상의 팀 중 높은 순위를 차지하는 등 도전적인 벤치마크에서의 최상위 성능을 통해 엄격하게 검증되었다. 이 연구는 매우 정확하고 실질적으로 효율적인 최첨단 수학적 추론기를 개발하기 위한 전투 테스트를 거친 청사진을 커뮤니티에 제공한다. 완전한 재현성을 보장하고 미래 연구를 지원하기 위해, 우리는 모든 코드, 모델 체크포인트, 훈련 구성을 포함한 전체 프레임워크를 https://github.com/analokmaus/kaggle-aimo2-fast-math-r1에서 오픈소스로 공개할 예정이다.
본 논문은 웹 브라우저 내에서 자체 압축 해제 가능한 JavaScript 페이로드를 임베딩하고 전달하기 위해 ICO 이미지 파일의 알파 투명도 레이어를 활용한 새로운 실행 가능한 스테가노그래피 방법을 제시한다. 제안된 방법은 비투명 알파 레이어 이미지 값의 최하위 비트(LSB)를 대상으로 하여, 시각적 충실도에 영향을 주지 않으면서 favicon 이미지 내에 압축된 JavaScript 코드를 성공적으로 은닉한다. 전 세계 웹 트래픽은 매일 2940억 개의 favicon을 로드하며 0.9페타바이트의 네트워크 대역폭을 소비한다. 개념 증명 구현을 통해 64x64 ICO 이미지가 최대 512바이트의 비압축 데이터 또는 경량 2단계 압축 시 0.8킬로바이트를 임베딩할 수 있음을 입증했다. 페이지 로드 시, 브라우저는 표준 동작의 일환으로 favicon을 가져오며, 이때 임베디드 로더 스크립트가 네이티브 JavaScript API와 캔버스 픽셀 접근을 사용하여 메모리 내에서 페이로드를 추출하고 실행할 수 있게 한다. 이는 추가적인 네트워크 또는 사용자 요청 없이도 두 단계의 은밀한 채널을 생성한다. 데스크톱 및 모바일 환경에서 다양한 브라우저를 대상으로 한 테스트는 임베디드 스크립트의 성공적이고 무음의 실행을 확인했다. 우리는 위협 모델을 평가하고, favicon 기반 탐지를 회피하는 다형성 피싱 공격과 관련지어 분석하며, 콘텐츠 보안 정책 및 안티바이러스 스캐너의 회피를 분석한다. MITRE ATT&CK 프레임워크의 9가지 예시 목표를 ICO 파일 내에서 임의로 실행 가능한 단일 라인 JavaScript로 매핑한다. 기존의 스테가널리시스 및 위생화 방어 기법의 한계를 논의하며, 알파 채널 익스플로잇을 탐지하거나 중화하는 데 있어 제약점을 강조한다. 결과는 정적 이미지와 실행 가능한 콘텐츠 사이의 전통적인 경계를 흐리는 은밀하고 재사용 가능한 공격 표면을 보여준다. 현대 브라우저가 개발자가 ICO 파일 로드를 명시적으로 실패할 때 무음 오류를 보고하는 점은, 필수적인 웹 동작이 보안을 훼손하는 흥미로운 사례를 제공한다.
대규모 언어 모델(LLMs)은 자연어 이해 및 생성에서 인상적인 능력을 보여주지만, 생성하는 출력에서 논리적 일관성 문제를 보인다. 이러한 불일치에도 불구하고 LLMs의 광범위한 파라미터 지식을 형식적 추론에 어떻게 활용할 수 있을까? 우리는 LLM을 직접 통합하여 파라일관 논리(paraconsistent logic)의 형식적 의미론 해석 함수에 적용하는 방법을 제시한다. 여러 단편적 사실성 벤치마크에서 생성된 데이터셋을 사용하여 이 함수를 평가함으로써 해당 방법의 실현 가능성에 대한 실험적 증거를 제공한다. 기존 연구와 달리, 우리의 방법은 LLM의 지식을 활용하면서도 기저 논리의 건전성(soundness)과 완전성(completeness) 속성을 보존하는 신경-기호 추론(neuro-symbolic reasoning)을 위한 이론적 틀을 제공한다.
가치 있는 디지털 자산으로서, 딥 뉴럴 네트워크는 강력한 소유권 보호가 필요하며, 이에 뉴럴 네트워크 워터마킹(NNW)이 유망한 솔루션으로 자리 잡고 있습니다. 다양한 NNW 접근법 중에서도, 가중치 기반 방법은 그 간결성과 실용성으로 인해 선호되지만, 위조 및 덮어쓰기 공격에 취약한 면이 있습니다. 이러한 문제를 해결하기 위해, 우리는 해시된 워터마크 필터를 중심으로 구축된 강력한 방법인 NeuralMark를 제안합니다. 구체적으로, 우리는 비밀 키로부터 되돌릴 수 없는 이진 워터마크를 생성하기 위해 해시 함수를 사용하며, 이를 통해 모델 파라미터를 선택하여 워터마크를 삽입합니다. 이 설계는 삽입 파라미터를 해시된 워터마크와 교묘하게 결합하여, 위조 및 덮어쓰기 공격에 대한 강력한 방어를 제공합니다. 또한, 미세 조정 및 가지치기 공격에 저항하기 위해 평균 풀링을 통합했습니다. 더 나아가, 이 방법은 다양한 뉴럴 네트워크 아키텍처에 원활하게 통합될 수 있어 광범위한 적용성을 보장합니다. 이론적으로는 보안 경계를 분석했으며, 실증적으로는 13개의 서로 다른 컨볼루션 및 트랜스포머 아키텍처를 통해 5개의 이미지 분류 작업과 1개의 텍스트 생성 작업에서 그 효과성과 견고성을 검증했습니다. 소스 코드는 https://github.com/AIResearch-Group/NeuralMark에서 확인할 수 있습니다.