– 그레이스 호퍼 제독(Admiral Grace Hopper)
1. Intro
이 글을 보는 당신, 인스타그램을 사용하고 계신가요?
그렇다면 인스타그램을 사용할 때 나에게는 뜨는 기능(예를 들면 화면 상단의 하트 버튼)이 친구에게는 뜨지 않는다거나, 새롭게 업데이트되었다는 기능이 나에게는 아직 뜨지 않는 경험을 해본 적이 있으신가요? 우리는 그것을 ‘인스타그램이 현재 A/B테스트를 진행 중이다’라고 말할 수 있습니다.
또 다른 예시를 들어보겠습니다.
2012년 마이크로소프트의 검색 엔진인 빙(Bing)에서 일하는 한 직원이 광고 헤드라인 표시법을 바꾸자고 제안했습니다. 아이디어는 타이틀 라인을 타이틀 바로 밑의 첫째 줄 문장과 합쳐서 광고 타이틀 줄을 길게 만드는 것이었습니다. 그들은 이 간단한 아이디어의 우선순위를 낮게 측정했고, 따라서 6개월 이상 지난 뒤에야 이 아이디어는 A/B테스트 형식으로 평가되었습니다.
그들은 사용자 일부에게는 아이디어가 적용된, 긴 광고 타이틀 줄을 배포하였고, 다른 사용자 일부에게는 원래 형식의 타이틀을 무작위로 보여주였습니다. 새로운 방식과 이전 방식을 무작위로 제공하여 그 둘을 비교할 수 있도록 만든 것이죠.
어떤 결과가 나왔을까요?
그들은 아이디어를 적용한 실험군에서 막대한 광고 수입이 창출되었다는 것을 알 수 있었습니다. 그리고 이 간단한 아이디어는 빙의 매출을 12%나 올리는 것에 기여했죠.
이 모든 예시는 A/B테스트에 관한 것입니다. 아마 서비스 런칭을 해보신 경험이 있으신 분들은 ‘A/B테스트’라는 단어가 친숙하실 거예요. 그러나 A/B테스트가 무엇인지는 알지만, 명확한 정의는 잘 모르시는 분들도 계실 겁니다.
그럼 A/B테스트를 한 번 정의해 볼까요?
2. A/B 테스트란?
A/B테스트란 A와 B, 즉 대조군(control)과 실험군(treatment) 2개의 종류를 비교하는 가장 간단한 형태의 종합 대조 실험(controlled experiment)입니다.
다시 말해, 실제 사용자 일부에게는 새로운 아이디어를 적용한 서비스를, 또 다른 일부에게는 이전의 것을 무작위 배포하여 해당 서비스에 대한 사용자 반응을 (클릭, 매출 등을 통해) 평가하는 것이라고 할 수 있죠.
A/B테스트의 명확한 명칭은 ‘종합 대조 실험’입니다. 종합 대조 실험은 A/B테스트를 제외하고도 A/B/n테스트, 현장 실험, 무작위 종합 대조 실험, 분할 테스트, 버킷 테스트 및 플라이트라고도 불립니다. 그러나 이번 글에서 우리는 이를 모두 A/B테스트로 통일하여 부르도록 하겠습니다.
온라인 A/B테스트는 에어비앤비, 아마존, 부킹닷컴, 이베이, 페이스북, 구글, 링크드인, 마이크로소프트, 넷플릭스, 트위터, 우버와 같은 기업에서 많이 사용됩니다. 이런 회사들은 매년 수천에서 수만 개의 실험을 실행하며, 때로는 수백만 명의 사용자와 연관하여 모든 것을 테스트합니다. 그들은 사용자 인터페이스(UI), 관련 알고리즘(검색, 광고, 개인 정보 확인, 추천 상품 등), 지연 시간/성능, 콘텐츠 관리 시스템, 고객 지원 시스템 등을 실험하며, 이는 웹사이트, 데스크톱 앱, 모바일 앱, 이메일 등의 여러 채널에서 실행됩니다. (어쩌면 여러분은 모두 자신도 모르는 사이 A/B테스트에 참여하고 있는 것일 수도 있다는 사실!)
가장 일반적인 온라인 A/B테스트에서 사용자는 실험군과 대조군에 무작위로 분할되며, 한 번 지정된 분할은 바뀌지 않습니다. 그리고 이는 사용자가 여러 번 사이트에 방문해도 동일한 경험을 할 수 있도록 도와주죠.
여기서 잠깐 퀴즈! 앞서 예시로 들었던 빙의 광고 타이틀 표시 방법에 대한 A/B테스트에서 실험군과 대조군은 무엇일까요? 맞습니다. 바로 새로운 타이틀 표시 방법이었던 더 긴 제목의 광고 표시가 실험군, 이전부터 제공되던 원래의 광고 표시가 대조군입니다.
가장 간단한 A/B테스트는 대조군과 실험군의 두 가지 변형군으로 두 그룹 사용자 간의 상호작용을 측정하고 분석하며 비교하는 것입니다. 그리고 실험의 마지막 분석을 통해 더 가치 있는 변수를 식별하여 가장 효과적인 시안을 선정하도록 도와주죠. 많은 사이트들은 A/B테스트를 사용하여 제품, 기업을 소비자 친화적으로 만들고 능률적인 서비스를 전략적으로 기획하는 데 사용합니다.
이처럼, A/B테스트는 사용자의 실제 생각을 보여주기 때문에, 서비스를 현실적으로 파악하고 올바른 방향으로 개선일 수 있도록 도와주는 중요한 도구입니다.
그럼 지금부터 어떤 방식으로 A/B테스트를 실행하는지 알아보도록 하겠습니다.
3. A/B테스트 진행 프로세스
본격적인 A/B테스트의 앞서 우리는 가설을 수립해야 합니다.
좋은 가설은 검증 과정에서 유의미한 레슨런(Lesson Learned)을 가져다주거나 비즈니스 임팩트를 줄 만한 인사이트를 제공하기에 A/B테스트의 핵심이라 할 수 있습니다.
그렇다면 가설을 세울 때, 어떤 점을 고려해야 할까요?
1) 전체 평가 기준(OEC) 선정
A/B 테스트를 통해 달성하고자 하는 비즈니스의 최종 목표 즉, OEC(Overall Evaluation Criterion)를 고려해야 합니다. 통계에서는 이를 흔히 종속 변수라 부르며 KPI가 동의어로 사용됩니다.
OEC는 실험 기간 동안 단기적으로 측정 가능하며, 장기적으로는 전략적인 목표를 추진할 수 있어야 합니다. 또한, 시기적절하게 중요한 변화를 감지할 수 있을 정도의 민감도를 갖춰야 하는데요. 이는 기초가 되는 통계적 분산, 효과의 크기(실험군과 대조군의 차이) 그리고 샘플링 추출 단위에 따라 달라질 수 있습니다. 민감하지 않은 지표의 극단적 예로는 ‘주가’가 있습니다. 사실상 실험 기간 내에 일상적인 제품(Product) 변화로 주가의 변동을 일으키기는 매우 어렵죠.
더불어 비즈니스 특성과 상황의 충분한 이해를 바탕으로 OEC를 선정해야 합니다. 예를 들어, 1년 주기로 구독을 갱신하는 서비스는 1년 간 실험을 진행하지 않는 한 갱신율에 미치는 영향을 측정하기 어렵습니다. 이런 경우에는 갱신율 자체보다 갱신에 영향을 미치는 고객 만족의 선행지표를 찾아 선정하는 것이 일반적입니다.
마지막으로 우리는 최적화하고자 하는 대상에 대해 깊이 생각하고 어떤 트레이드오프를 수용할지 결정해야 합니다. 만약 체류시간(Time-on-Site)을 늘리는 것을 OEC로 정했다면 단기적으로는 불필요한 페이지를 생성하고, 느린 사이트를 초래해 지표를 개선시킬 수 있지만, 장기적으로는 사용자가 이탈하는 원인이 됩니다. 또, 성장이 우선시 되는 조직의 경우 실험에 의해 매출이 증가하더라도 사용자의 감소를 받아들이기 어려울 수 있죠. 따라서, 측정 및 계산 가능성, 민감도와 적시성 등을 모두 고려해 비즈니스 목표 및 OEC를 선정하고 전사적으로 이해관계를 일치시키는 것이 중요합니다.
2) 파라미터 값과 우선순위 정렬
파라미터란, OEC에 영향을 미치는 통제 가능한 실험 변수를 의미하며 요인(Factor)이라 부르기도 합니다. 실험에서 통제 가능한 실험 변수는 독립변수와 통제 변수 등이 있으며, 특히 A/B 테스트의 성패는 통제 변수를 얼마나 잘 관리하느냐에 달려 있습니다.
통제 변수는 실험군과 대조군에서 동등한 조건을 지녀야 하는 변수로, A/B 테스트 경험이 부족한 경우 종속 변수에 영향을 미치는 요소를 두루 살펴 샘플링 오류가 발생하지 않도록 해야 합니다. 이러한 파라미터를 리스트업 한 후에는 가장 우선순위가 높은 방법부터 테스트를 실행하게 되는데요. 이때, 참고할 수 있는 프레임워크로는 ICE(Impact/Confidence/Ease), MosCow(Must have, Should have, Could have, Won’t have) 등이 있습니다.
3) 가설 서술
가설은 참/거짓의 판별이 가능한 수준의 문장으로 서술하고, 테스트하고자 하는 주체를 정확히 명시해야 합니다.
아래 예시를 바탕으로 주체에 대한 이야기를 좀 더 해보겠습니다.
체크아웃 페이지에 쿠폰 필드를 더하면 매출이 증가할 것이다. (X) |
체크아웃 페이지에 쿠폰 코드 필드를 더하면 구매 프로세스를 시작하는 유저의 사용자 당 매출이 증가할 것이다. (O) |
만약 OEC를 매출로 선정했다면 대게 전체 매출을 증가시키는 것이 목표겠지만, 변형군마다 매출 발생의 주체가 다를 수 있습니다. 따라서, 총매출의 합보다는 사용자 당 매출(매출/사용자)과 같은 표준화된 지표를 사용하는 것을 권장합니다.
또한, 사용자는 사이트를 방문한 모든 사람이 아닌 체크아웃 페이지에 진입해 결제 프로세스를 시작한 사람들로 한정 짓는 것이 바람직합니다. 전체 사용자를 대상으로 할 경우, 불필요한 노이즈가 추가되어 민감도가 떨어지는 결과를 초래할 수 있기 때문입니다.
이어 실험에서는 귀무가설과 대립가설을 필요로 합니다. 귀무가설이란 차이가 없거나 의미 없는 경우의 가설을 말하며, 대립가설은 귀무가설과 반대되는 것으로 연구를 통해 입증되기를 주장하는 가설을 말합니다.
귀무가설(H0) 체크아웃 페이지에 쿠폰 코드 필드를 더해도 구매 프로세스를 시작하는 유저의 사용자 당 매출은 저하하지 않을 것이다. |
대립가설(H1) 체크아웃 페이지에 쿠폰 코드 필드를 더하면 구매 프로세스를 시작하는 유저의 사용자 당 매출이 증가할 것이다. |
우리는 이 2가지 가설을 바탕으로 표본 데이터를 수집해 유의성 검정을 수행하고 검증 결과, 귀무가설이 참으로 판단된다면 이를 채택(Accept), 그렇지 않다면 귀무가설을 기각(Reject)함으로써 대립가설을 채택하는 것이죠.
A/B 테스트 중이라면 북마크해야 할 체크리스트
A/B 테스트 기획을 준비 중이신가요? 최고의 결과를 얻기 위해서 테스트의 전과 후, 테스트 도중에도 확인해야 할 체크리스트를 정리해 왔습니다. 북마크해서 두고두고 읽어보아도 괜찮을 정도로 준비했습니다. 지난 편은 👉이곳에서👈 확인할 수 있습니다.
테스트마다 복수의 지표를 측정하겠지만 테스트를 수행하기 전 기본이 될 지표를 반드시 하나만 고르고 해당 지표에 집중하세요. 나머지 버전도 마찬가지입니다. 해당 변수가 이번 테스트의 “종속 변수Dependent variable”가 될 것입니다.
A/B 테스트가 끝날 때까지 해당 변수를 항상 유념해두세요. 공식적인 가설을 명시하고, 이러한 예측에 기반하여 테스트의 결과를 검토할 수 있습니다.
만약 어떤 지표가 자사에게 중요한지, 어떤 목표를 설정해야 할지, 자사가 제안할 변경사항이 사용자의 행동에 어떤 영향을 줄지 등 기다리고 판단하느라 시간을 허비하지 마세요. 효율적인 테스트 방법이 아닙니다.
3. Control과 Challenger를 만들자원하는 실험 결과를 얻기 위한 독립 변수와 종속 변수를 선택했습니다. 다음은 독립변수와 종속변수에 대한 정보를 활용하여 Control로 설정한 기존 버전을 테스트해봅시다. 만약 웹 페이지를 테스트하는 중이라면 새로운 Control을 생성할 필요 없이 변경사항이 반영되지 않은 기존의 페이지를 사용하면 됩니다. 만약 랜딩페이지를 테스트하는 중이라면, 일반적으로 Control은 보통 사용하는 랜딩 페이지의 디자인과 카피로 설정합니다.
여기서부터 업데이트 버전 혹은 “Challenger”라고 불리는 버전을 구축할 시간입니다. – 웹사이트, 랜딩 페이지 혹은 이메일 등 Control과 비교하고 대조하며 A/B 테스트하세요. 예를 들어, 랜딩 페이지에 유저의 리뷰나 추천 글을 노출하여 차이를 만들 수 있을지 궁금하다면 추천 리뷰가 없는 Control 페이지를 먼저 생성하세요. 그 후 추천 리뷰가 있는 페이지를 만들어 보세요.
4. 표본 그룹을 무작위로 나누되 동일하게 쪼개자상대적으로 잠재고객(Audience)을 통제하기 쉬운 테스트의 경우 – 이메일과 같이 – 결정적인 단서를 얻기 위해서는 두 개 이상의 동일 그룹을 테스트할 필요가 있습니다.
표본 그룹을 나누는 방법은 사용하는 A/B 테스트 툴에 따라 달라집니다. 예를 들어, 허브스팟의 엔터프라이즈 툴은 자동으로 트래픽을 나누어 Control과 Challenger에 할당하는 기능이 있습니다. 따라서 방문자를 무작위 추출하여 (랜덤 샘플링, Random Sampling) 각 버전에 분배할 수 있습니다.
5. (가능하다면) 표본의 크기를 결정하자표본의 크기를 결정하는 방법 역시 사용하는 A/B 테스트 툴이나 운영하려는 A/B 테스트의 유형에 따라 다릅니다.
이메일을 A/B 테스트하는 마케터라면 통계적으로 유의미한 결과를 얻기 위해 고객의 일부분만을 활용하여 A/B 테스트를 활용하고 싶을 겁니다. 그리고 최상의 결과를 보여준 버전을 나머지 고객에게도 보내는 방법을 상상합니다.
허브스팟의 엔터프라이즈 고객이라면 슬라이더를 사용하여 손쉽게 샘플 그룹의 크기를 결정할 수 있습니다. 타사의 A/B 테스트 툴이 최소 1,000명 이상의 샘플을 요구하는 것에 비해 허브스팟 툴은 샘플 크기와 상관없이 50/50의 A/B 테스트를 수행할 수 있습니다.
웹페이지처럼 구체적인 표본의 수를 알 수 없는 상황에서 A/B 테스트를 수행한다고 가정해봅시다. 해당 경우에는 테스트의 수행 기간이나 시간이 표본의 크기에 영향을 직접 줄 것입니다.
이럴 때는 우선 상당한 수의 뷰를 얻을 수 있을 정도로 테스트를 오래 실행해야 합니다. 결과가 충분치 않다면 각 버전 사이에서 유의미한 차이가 발생했는지 확인하기 힘들기 때문입니다.
6. 필요로 하는 결과가 어떻게 중요한지 결정하자위의 단계에서 목표가 되는 지표(Goal metric)를 고르셨나요? 다른 버전의 ‘폐기’를 정당화할 만큼 유의미한 결과를 보여주는지 고민할 시간입니다. 통계적 유의성(Statistical significance)은 함정에 빠지기 쉬운 A/B 테스트의 과정에서 굉장히 중요합니다.
신뢰도(Confidence level)의 백분율이 높을수록, 결과를 확신할 수 있습니다. 특히 설정에 시간이 오래 걸리는 실험이라면 최소 95% – 바람직하게는 98%까지 – 의 신뢰도를 원할 것입니다. 만약 엄격할 필요가 없는 테스트라면 때때로 신뢰구간(Confidence rate)이 낮아도 상관없습니다.
허브스팟의 시니어 소프트웨어 엔지니어 Matt Rheault는 평소에도 내기나 배팅처럼 통계적 유의성에 대해 생각하길 즐깁니다. 배팅하면서 마음이 편할 수가 있을까요? “저는 이 디자인이 옳다고 80% 정도 확신합니다. 따라서 이 디자인에 모든 것을 걸고 싶습니다.”라고 말하는 것은 80%의 유의성을 보이는 A/B 테스트를 운영하고, 최고의 버전을 고르는 것과 비슷합니다.
Rheault는 또한 전환율을 약간 향상하는 무언가를 테스트할 때에는 높은 신뢰 임계 값(Confidence threshold)을 원할 것이라고 말합니다. 왜일까요? 확률변수가 더 큰 역할을 수행할 가능성이 높기 때문입니다.
“신뢰 임계 값을 낮추는 편이 더 안전하다고 느끼는 표본은 10% 혹은 그 이상의 전환율을 향상할 가능성이 있는 실험입니다. 예를 들어 히어로 섹션(Hero Section)을 리디자인(Redesign)하는 실험이 여기에 속합니다.”
히어로 헤더(Hero Header)나 히어로 이미지(Hero Image)로도 불립니다. 웹의 히어로 섹션은 일반적으로 눈에 잘 띄는 이미지, 슬라이더, 텍스트 혹은 비슷한 구성요소로 홈페이지의 레이아웃 그리고 이어지는 페이지들에서 가장 눈에 잘 띄는 자리에 위치합니다. 따라서 보통 최상단이나 정중앙에 위치합니다.
히어로 섹션은 색상이나 패턴 대신 사용되는 크고 트렌디한 배경 이미지와는 다릅니다. 히어로 섹션의 목적이나 초점은 일반적인 모양새나 톤의 설정이 아니기 때문입니다. 시각적인 자극이며 디자인에 중심점을 부여하고 대중들을 끌어 당기도 사로잡는 핵심 툴입니다. 히어로 섹션은 자사가 지어내는 스토리 속 “호감이 가는 주인공”이며, 읽기 전 훑어보는 책 표지의 요약 글이기도 합니다.
“여기서 포인트는 변화가 급진적일수록, 과학적으로 단계별 프로세스를 밟아야 할 필요가 줄어든다는 점입니다. 하지만 변화(e.g. 버튼 색상, 마이크로카피-Micro copy- 등)가 구체적일수록 전환율에 눈에 띄거나 큰 영향을 줄 가능성이 작기 때문에 오히려 더 과학적으로 측정해야 합니다.”
유저가 무언가를 할 때마다 앱이나 웹 서비스의 인터페이스에 떠오르는 짧은 카피를 일컫습니다. 예를 들어 에러 메시지나 제출양식(Form)을 간단히 설명하는 문구 등이 있습니다.
언뜻 보면 전반적인 앱 디자인과 비교했을 때 유의미한 영향을 주지 못하는 짧은 문구로 보이지만 놀랍게도 전환율이나 서비스에 큰 영향을 줄 확률이 높다고 합니다.
하나의 캠페인을 위해 한 가지 이상을 테스트하면 – 정확하게 동일한 에셋(광고 제목, 설명, 이미지, 로고 등)이 아닐지라도 – 실험의 결과를 복잡하게 만들 수 있습니다. 예를 들어, 랜딩 페이지로 곧바로 이어지는 이메일 캠페인을 A/B 테스트하면서 랜딩 페이지도 A/B 테스트한다고 가정해봅시다. 어떤 부분에서 리드가 상승했는지 구분할 방법이 없습니다.
A/B 테스트를 수행하면서A/B 테스트 중에 취해야 할 단계를 알아보겠습니다.
8. A/B 테스트 툴을 활용하자웹 사이트 또는 이메일에서 A/B 테스트를 수행하기 위해서 A/B 테스트를 사용할 필요가 있습니다. 허브스팟의 엔터프라이즈 서비스를 사용하는 고객이라면, 허브스팟 소프트웨어가 지닌 기능으로 이메일 [👉 더 알아보기], CTA (Calls-To-Action) [👉더 알아보기], 그리고 랜딩 페이지 [👉 더 알아보기]에 대한 A/B 테스트를 수행할 수 있습니다.
허브스팟을 사용하지 않는 – 예를 들어 Google Analytics’ Experiments 등의 툴을 사용하는- 엔터프라이즈급의 고객들은 최대 10가지의 단일 웹페이지 전체 버전을 테스트하고 사용자의 무작위 표본을 사용하여 버전 간의 퍼포먼스를 비교할 수 있습니다.
9. 두 가지 버전을 동시에 테스트하자타이밍이란 하루의 시간이나 요일, 달에 상관없이 마케팅 캠페인 성과에 큰 영향을 미칩니다. 한 달동안 버전 A를, 이어지는 달에 버전 B를 운영한다고 가정합시다. 성과가 변해도 디자인 때문인지 혹은 다른 달에 운영했기 때문인지 파악하기가 어렵습니다.
그러므로 A/B 테스트를 운영할 때에는 두 가지 버전을 동시에 진행해야 합니다. 그렇지 않으면 성과를 재검토해야 할 수 있습니다.
위의 상황에서 유일한 예외는 타이밍 그 자체를 테스트하는 경우입니다. 이메일 발송을 위한 최적의 타이밍 혹은 시간을 찾는 A/B 테스트가 이에 해당합니다. 이메일 발송의 타이밍을 찾는 테스트는 꽤 괜찮습니다. 자사가 무엇을 제공하는지, 자사의 구독자나 고객은 누구인지에 따라, 이메일 수신자의 참여율이 매우 달라질 수 있기 때문입니다. 산업군이나 타겟으로 삼은 시장에 따라서도 다릅니다.
10. A/B 테스트에게 유용한 데이터를 생성할 수 있는 충분한 시간을 주자위에서도 언급했지만, 유효한 표본 크기를 모으기 위해서는 테스트를 충분히 그리고 오래 진행해야 합니다. 그렇지 않으면 두 버전 사이에 통계적으로 유의미한 차이가 있었는지 구별하기 어렵습니다.
얼마나 오래 해야 충분할까요? 자사 그리고 A/B 테스트를 어떻게 실행하는지에 달려있습니다. 통계적으로 중요한 결과를 얻기 위해서 한 시간이 걸리는 회사도, 며칠 혹은 몇 주가 걸리는 회사도 있습니다. “통계적으로 중요한 결과를 얻는 데 얼마만큼의 시간이 필요한가?”를 좌우하는 요소는 트래픽입니다. 따라서 자사 웹사이트의 트래픽이 많지 않다면 A/B 테스트에 더 많은 시간이 소요됩니다.
이론적으로는 결과를 수집하는 시간을 제한해서는 안 됩니다. (왜인지 궁금하신가요? 차후 올라올 “A/B 테스트 현실과 진실” 콘텐츠를 참고해주세요. 콘텐츠 업데이트의 알람은 👉여기에서👈 받을 수 있습니다.)
11. 실제 사용자에게 피드백을 요청하자A/B 테스트는 정량적 데이터와 많은 관련이 있습니다. 하지만 특정 사용자가 “왜” 다른 유저들과 다른 행동을 취하는지 이해하는 데는 도움이 되지 않습니다. A/B 테스트를 운영하는 동안, 실제 사용자에게 정성적인 피드백을 수집해보세요.
사람들에게 의견을 묻는 좋은 방법은 설문 조사지나 투표(Poll) 형식을 활용하는 방법입니다. 자사의 사이트에 출구 조사를 추가하여 왜 특정 CTA를 클릭하지 않았는지 물어볼 수 있습니다. 혹은 버튼을 클릭하거나 폼을 제출한 방문자에게 노출하는 감사 페이지에도 추가해볼 수 있습니다.
예를 들자면 많은 사람이 CTA를 눌러 무료 E-book으로 이동했지만, 가격을 보고 난 이후에는 전환이 이루어지지 않는 상황을 관찰했습니다. 이러한 정보는 고객이 특정 방식으로 행동하는 이유 그리고 관련 인사이트를 제공합니다.
A/B 테스트 이후마지막으로 A/B 테스트 이후에 취해야 할 단계를 알아봅시다.
12. 목표 지표에 초점을 맞추자거듭 강조하지만, 복수의 지표를 측정하는 중에도 주요 목표 지표에 초점을 맞추어 분석하세요.
가령 두 가지 버전의 이메일을 테스트하면서 리드 수를 주요 지표로 삼았다면, 오픈율이나 클릭률에는 주의를 기울이지 마세요. 클릭률이 높고 전환율이 낮은 상황이라도 최종 클릭률이 낮은 버전을 고르는 것으로 A/B 테스트를 끝마칠 수 있습니다.
13. A/B 테스트 계산기를 사용하여 결과의 유의성을 측정하세요.가장 성과가 좋은 버전을 결정했다면, 이제는 성과가 통계적으로 유의미했는지 아닌지를 결정할 시간입니다. 즉, 변경할만한 정당한 이유가 있는지 측정해야 합니다.
이를 파악하기 위해서는 통계 유의성 검정을 수행할 필요가 있습니다. 수동으로도 할 수 있지만, 실험 결과를 허브스팟이 제공하는 무료 A/B 테스트 키트와 실험의 결과를 연결하여 간편하게 계산할 수 있습니다.
테스트를 수행한 각 버전에 대해 전송된 메일이나 노출의 수 등의 숫자를 입력하라는 메시지가 표시될 것입니다. 이어서 달성한 목표의 수를 입력하세요. 일반적으로 클릭 수를 보시겠지만, 이는 다른 유형의 전환이 될 수도 있습니다.
계산기는 최종적으로 효율이 가장 높았던 버전의 데이터가 지니는 신뢰도를 산출해줍니다. 이후 통계 유의성을 결정하기 위해 선택한 값과 비교하고 해당 수치를 측정하세요.
14. 결과에 기반한 조치를 취하자한 가지 버전이 다른 버전보다 통계적으로 우월한 결과를 보여주었나요? A/B 테스트 툴을 통해 다른 버전들을 비활성화하여 A/B 테스트를 완료하세요.
둘 중 어느 버전도 통계적으로 더 나은 것이 아니라면 테스트한 변수가 결과에 영향을 미치지 않았다는 사실을 알게 된 것입니다. 따라서 테스트를 확고하게 결정적이지 못한 테스트로 표시해야 할 것입니다. 이러면 원래 버전을 고수하거나 새로운 A/B 테스트를 진행하세요. 실패한 데이터는 또 다른 테스트의 반복에 활용할 수 있습니다.
A/B 테스트는 단기적인 성과뿐만 아니라 장기적인 성과가 되기도 합니다. 각 사례를 기준으로 하는 결과에 영향을 주지만, 실행자 역시 각 테스트에서 교훈을 배우고, 그 교훈을 미래에도 적용할 수 있기 때문입니다.
예컨대 이메일 마케팅에서 A/B 테스트를 수행한 후, 이메일의 제목에서 숫자를 사용하면 클릭률이 더 높아진다는 사실을 반복해서 발견했습니다. 그렇다면 담당자는 더 많은 이메일에서 이러한 전술을 구사하는 방안을 고려해 볼 수 있습니다.
15. 이어질 A/B 테스트를 기획하자일련의 과정을 통해 완료된 A/B 테스트는 마케팅 콘텐츠를 보다 효과적으로 만드는 새로운 방법의 발굴에 도움을 주었을 겁니다. 하지만 여기서 멈추지 마세요. 언제나 더욱 최적화할 수 있는 여지가 있습니다.
또한 방금 테스트한 페이지와 동일한 웹 페이지의 다른 기능이나 이메일의 A/B 테스트의 수행을 시도해볼 수 있습니다. 이를테면 랜딩 페이지의 헤드라인을 테스트한 상황입니다. 본문의 카피에도 새로운 테스트가 필요하지 않을까요? 혹은 색상의 체계나 이미지를 바꿔볼 수도 있습니다. 언제나 전환율과 리드를 높일 기회를 주시하세요.
A/B 테스트를 통해 “청중이 보고 싶은 콘텐츠와 마케팅은 무엇인가?”에 대한 진실을 볼 수 있습니다. 지금 허브스팟을 활용하여 A/B 테스트를 효율적이고 간편하게 수행하는 방법을 알아보세요.