news

구글 젬마4

구글 젬마(Gemma) 4는 2026년 4월에 공개된 구글의 최신 오픈 모델 패밀리로, “제미니(Gemini) 기술을 바탕으로 만든 가장 지능적인 오픈 가중치 모델”이라는 포지셔닝을 갖고 있습니다. 서버급 GPU부터 스마트폰까지 폭넓은 하드웨어에서 고급 추론·에이전트 워크플로를 구현하도록 설계되었고, 아파치 2.0 라이선스로 배포되어 상업적 활용과 로컬 배포에 강점을 가집니다.

라인업: 4가지 모델 구조

젬마4는 하나의 단일 모델이 아니라, 서로 다른 용도와 하드웨어를 겨냥한 네 가지 아키텍처로 구성된 패밀리입니다. 먼저, ‘E2B’(Effective 2B)와 ‘E4B’(Effective 4B)는 이름 그대로 유효 파라미터 수 기준으로 20억·40억급에 해당하는 소형 모델로, 안드로이드, 픽셀, 크롬 등 디바이스·브라우저·엣지 환경에서 실행되도록 최적화되어 있습니다. 이 두 모델은 저지연 응답과 낮은 메모리 사용량, 그리고 멀티모달 지원을 동시에 추구한다는 점이 특징입니다.

중형 이상으로는 310억 파라미터의 Dense(완전 밀집) 모델과 260억 파라미터의 Mixture-of-Experts(MoE) 모델이 제공됩니다. 31B Dense는 범용 텍스트·코딩·추론에서 최고 수준의 오픈모델 성능을 목표로 하며, Arena AI 텍스트 리더보드에서 전체 오픈 모델 중 3위에 오를 정도의 벤치마크 성과를 보이고 있습니다. 26B MoE는 토큰당 실제로 활성화되는 파라미터는 40억 수준이지만, 라우팅·전문가 구조 덕분에 높은 처리량과 좋은 추론 품질을 동시에 노리는 설계로, 동일한 파라미터 규모의 Dense 모델 대비 속도·효율에서 이점을 제공하는 것이 목적입니다.

메모리 관점에서 보면, BF16 기준으로 E2B는 약 9.6GB, E4B는 15GB, 31B는 58.3GB, 26B MoE는 48GB 정도를 요구하며, 8비트(SFP8)나 4비트(Q4_0) 양자화를 적용하면 각각 절반 이하 수준까지 줄일 수 있습니다. 특히 E2B/E4B는 ‘효과적 파라미터’라는 개념을 쓰기 때문에, 실제 메모리 용량은 유효 파라미터 수보다 더 크지만, 추론 시 동적으로 사용하는 파라미터 수를 줄여 모바일·엣지에서도 고성능을 내도록 설계된 점이 눈에 띕니다.

멀티모달·롱컨텍스트·추론 성능

젬마4는 텍스트뿐 아니라 이미지, 오디오, 일부 변형에서는 비디오까지 입력으로 받아들일 수 있는 멀티모달 모델입니다. 모든 모델이 텍스트·이미지 입력을 지원하고, E2B/E4B와 같은 소형 변형은 오디오까지 기본 지원해 음성·사운드 기반 애플리케이션에도 바로 활용할 수 있도록 했습니다. 이미지 인코더는 젬마3에서 쓰인 구조를 발전시켜, 다양한 종횡비를 지원하고 이미지 토큰 수를 조절할 수 있게 함으로써 속도·메모리·품질 사이의 균형을 개발자가 선택할 수 있도록 합니다.

컨텍스트 윈도우도 대폭 확장되었습니다. 소형 모델(E2B/E4B)은 128K 토큰, 중형 이상 모델은 최대 256K 토큰의 긴 문맥을 다룰 수 있습니다. 이는 장문 문서 요약, 긴 대화 세션 유지, 코드베이스 전체를 통째로 맥락에 넣고 분석하는 용도 등에서 중요한 의미를 갖습니다. 내부적으로는 슬라이딩 윈도우(Local)와 전체 문맥(Global)을 번갈아 사용하는 주의(attention) 구조와 Dual RoPE 설정(슬라이딩 계층에는 일반 RoPE, 글로벌 계층에는 비례 RoPE 적용)으로 긴 문맥에서의 안정성과 성능을 확보합니다.

구글은 젬마4가 “고급 추론(advanced reasoning)”과 “에이전트 워크플로(agentic workflows)”에 특화되어 있다고 강조합니다. 31B Dense와 26B MoE 모델은 다양한 벤치마크에서 같은 크기 또는 훨씬 큰 오픈 모델들을 상회하는 성능을 보이는 것으로 소개되며, 특히 “byte for byte, intelligence-per-parameter”라는 표현으로, 파라미터 1개당 얻는 지능 수준이 경쟁 모델보다 높다는 포지셔닝을 하고 있습니다. 이는 더 적은 GPU 리소스로도 프런티어급에 가까운 추론·코딩·에이전트 능력을 구현할 수 있다는 의미입니다.

모델 내부 구조와 기술적 특징

소형 젬마4(E2B/E4B)의 핵심 기술 중 하나가 Per-Layer Embeddings(PLE)입니다. 일반적인 트랜스포머에서는 토큰 임베딩이 모델 입력에서 한 번만 주어지고, 이후 모든 디코더 레이어는 이 초기 표현을 바탕으로 잔차 스트림을 쌓아가는 구조입니다. 반면 젬마4의 PLE는 각 디코더 레이어가 동일 토큰에 대해 별도의 작은 임베딩 테이블을 참고하도록 설계해, 레이어별로 다른 “보조 정보”를 넣어주는 방식으로 파라미터 효율을 높입니다. 이 임베딩 테이블들은 정적 가중치로 메모리에는 상주하지만, 추론 시에는 빠른 lookup만 수행하므로 실질적인 연산량 증가 없이 표현력을 끌어올리는 효과를 기대할 수 있습니다.

또 다른 특징은 앞서 언급한 슬라이딩 윈도우 + 글로벌 어텐션의 교차 적용입니다. 상대적으로 작은 Dense 모델은 512 토큰 단위, 큰 모델은 1024 토큰 단위의 슬라이딩윈도우 어텐션을 사용하면서, 일정 간격으로 전체 문맥에 접근하는 글로벌 어텐션 레이어를 섞어 긴 문맥을 효율적으로 처리합니다. Dual RoPE 설정을 통해, 이 구조에서도 길어진 시퀀스에서 위치 정보 왜곡을 최소화하도록 조율한 것이 특징입니다. 이러한 설계는 롱컨텍스트 처리에서 흔히 발생하는 “초반 내용 잊기” 문제를 완화하는 데도 도움이 됩니다.

26B MoE 모델은 이름 그대로 Mixture-of-Experts 구조를 도입합니다. 토큰마다 모든 파라미터가 아니라 일부 전문가 레이어만 활성화되기 때문에 실제 계산량은 훨씬 작으면서, 전체 모델 파라미터 수는 커서 다양한 패턴을 포괄할 수 있습니다. 다만 빠른 라우팅과 추론 속도를 유지하기 위해서는 GPU 메모리에 전체 260억 파라미터를 모두 올려야 한다는 점이 명시되어 있어, 메모리 요구량은 Dense 26B에 근접합니다. 이런 구조는 대형 서버·클러스터 환경에서 고처리량 API를 운영할 때, 파라미터 대비 처리량을 극대화하는 용도에 적합합니다.

개발자·서비스 관점의 활용 포인트

젬마4는 처음부터 개발자와 오픈소스 커뮤니티를 겨냥해 설계·배포되었습니다. 모델 가중치는 구글 AI 스튜디오뿐 아니라 허깅페이스, 캐글, 오라마(Ollama) 등 다양한 플랫폼에서 내려받을 수 있고, 라이선스도 아파치 2.0이라 상업 서비스에 자유롭게 탑재할 수 있습니다. 이는 미국·유럽 중심의 오픈소스 AI 경쟁 구도에서 구글이 본격적으로 ‘풀 오픈’ 전략을 선택했다는 신호로 해석할 수 있습니다.

기능 측면에서는, 젬마4 전 모델군에 시스템 프롬프트(시스템 롤) 네이티브 지원이 추가되었습니다. 이는 채팅형 에이전트에서 역할 제어, 정책 강제, 페르소나 설정 등을 더 구조적으로 수행할 수 있게 해줍니다. 또한 함수 호출(function calling) 기능이 내장되어 있어, 외부 도구·API·데이터베이스를 연동한 에이전트 구축이 쉬워졌습니다. 코딩 벤치마크에서도 이전 젬마 세대 대비 유의미한 향상을 보이며, 코드 생성·리팩토링·테스트 케이스 작성 등 개발자 워크플로나, RAG+코딩 조합을 요구하는 엔터프라이즈 시나리오에서 강점이 있습니다.

하드웨어 관점에서, E2B/E4B는 고급 모바일 칩이나 노트북, 경량 서버에서 로컬 실행을 염두에 두고 설계되어, 안드로이드나 크롬 기반 디바이스에서 프라이버시 민감한 데이터를 클라우드로 올리지 않고도 고급 AI 기능을 제공할 수 있습니다. 반면 31B/26B는 H100급 GPU가 장착된 서버에서 최대 성능을 발휘하며, Arena AI 리더보드 기준으로 같은 크기 혹은 20배 더 큰 다른 오픈 모델들을 상회하는 텍스트 품질·추론력을 보여주는 것으로 소개됩니다. 서비스 사업자 입장에서는 GPU 수를 줄이면서도 고급 AI 기능을 제공할 수 있게 되어, 인프라 비용 절감에 직접적인 영향을 줄 수 있는 부분입니다.

젬마4의 의미와 전망

젬마4는 구글이 제미니라는 클로즈드 프런티어 모델 라인과 별도로, 완전히 오픈한 모델 생태계를 어떻게 가져갈 것인지에 대한 방향을 보다 명확히 보여주는 지표입니다. 1세대 젬마 이후 수억 회 다운로드와 10만 개 이상의 커뮤니티 변형 모델이 나왔다는 점을 구글은 강조하면서, 젬마4가 이른바 ‘Gemmaverse’를 다음 단계로 끌어올릴 기반이 될 것이라고 설명합니다. 특히 파라미터 대비 성능, 모바일 퍼스트 멀티모달, 아파치 2.0 라이선스라는 세 가지 축을 통해 메타·Mistral·xAI 등과의 오픈 모델 경쟁에서 유리한 고지를 선점하겠다는 의지를 드러냅니다.

한국·아시아 개발자 입장에서도, 긴 컨텍스트와 멀티모달 지원, 그리고 비교적 가벼운 모델 변형(E2B/E4B)을 통해 로컬 언어·서비스에 특화된 애플리케이션을 만들 수 있는 여지가 커졌습니다. 다만 실제 한국어 성능·비지니스 도입 관점에서는 향후 커뮤니티 벤치마크, 기업 파일럿 프로젝트 등을 통해 추가 검증이 필요합니다. 젬마4의 강점인 “에이전트·코딩·추론”이 한국 시장에서도 얼마나 그대로 재현되는지가 관전 포인트가 될 것입니다.

“이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.”