프로덕트 매니지먼트

HiPPO와 우선순위 정하기

polissage 2023. 1. 8. 15:18
728x90

HiPPO & prioritization or prioritization with HiPPO

프로덕트 매니저가 해야 할 일은 한둘이 아니겠지만 그 중에서도 가장 중요하거나 제품의 흥망에 큰 영향을 미치는 일은 제품 개발 우선순위를 정하는 일일 것 같다. 전략을 수립하고 전략적 차원의 우선순위를 정하는 것은 더 어려운 일이고, 한국에서는 어지간한 기업의 PO나 CPO가 아닌 이상 전술적 차원의 우선순위를 정할 수 있는 권한을 갖는 것도 쉽지 않다는 생각이다.

PM 또는 PO로 일하면서 우선순위 선정에 대한 이니셔티브를 온전하게 가지고 일했던 적도 있었고, 현재는 상대적으로 자율성이 높지 않은 스타트업에서 일하고 있다. 어느정도의 자율성이냐 하면 특정 기간 동안 개발해야할 피쳐 리스트가 각 PM에게 할당되는 수준이다. 최고 제품 책임자(이 회사에서는 대표님)가 제품 메트릭을 꿰고 있고 납득이 가는 전략적 방향성에 따라 피쳐가 정해진다면 그나마 나은 상황이겠지만, 현 상황에서 가장 중요한 문제가 아닐 것 같고 출시 후 임팩트가 미미해보이는 상황에서는 권한 범위에 대해 꽤나 불만을 가지게 된다.

8개월 남짓한 근무 기간 동안 제품개발 우선순위에 대한 결정에 크게 문제의식을 가졌던 적이 몇번 있었는데, 그 중 일부 피쳐는 A/B 테스트를 실행하자는 건의를 하고 실질적인 임팩트를 확인한 후 킬하기도 했고 몇몇은 일단 MVP를 빠르게 출시하기로 결정한 적도 있었다. 그 중 출시 후 임팩트에 대해 확신 수준이 매우 낮았던 피쳐 하나에 대한 단상을 적어보려고 한다.

로드맵 아이템을 대표님과 논의하면서 대표님이 강하게 개발하자고 이야기했던 피쳐가 2개 있었는데, 둘다 현 사용자 페르소나를 타겟한다기 보다는 새로운 유형의 페르소나를 타겟팅하는 것이었다. 분명 타겟 유저를 확장해야 하는 시점이 오겠지만 그 시점에는 MAU가 미미한 수준을 유지하고 있었기 때문에 전략적으로 핵심 사용자 유형에 집중하여 그 규모를 늘리는 것이 더 유효한 접근이라는 생각을 했다. 그러나 몇가지 레퍼런스를 들면서 원래 사용자 유형이 아닌 그 레퍼런스를 사용하는 사용자로 타겟을 확장하는 것이 이번 분기의 전략이라는 주장에 어쩔 수 없이 두 피쳐를 준비하여 출시했다. 다른 곳에서 제공하는 유사 피쳐와 비교해보면 2~30% 정도의, MVP라고 보기에도 조금 부족한 부분적인 기능만을 출시했는데, 출시 직후 제품팀 외 내부 구성원의 피드백이 있었다. 업계에서는 꽤나 일반적인 기능이었기 때문에 해당 업계 종사자들이 해당 피쳐 때문에 우리 제품을 사용하게 되었다는 내용이었다. 이 피드백을 기반으로 신규 기능의 성과가 매우 좋다는 분위기가 형성되면서 최초 출시에서 빠진 부분이나 추가 기능에 대한 제안이 이어졌다. 

대표님 성향상 증거에 대한 고려없이 다소 성급한 의사결정을 내리는 경우가 종종 있긴 했지만, 이 케이스에서는 한 걸음 더 나아가 이터레이션을 바로 하자는 의사결정이 내려지는 분위기가 형성되는 것을 우려할 수 밖에 없었다. 피쳐를 개발하겠다는 결정도 HIPPO에 의해 내려졌는데, 이 결정의 정당성을 뒷받침하기 위해 양질이 아닌 증거를 이용하고 있었다(주변인의 몇몇 피드백). 본인의 의지로 출시한 피쳐의 성과가 좋아야만 하므로, 성급하게 성과에 대해 결론을 내리려는 태도에서 상당 부분 확증편향이 작용했다고 볼 수 있다.

확증편향이란 자신의 견해 또는 주장에 도움이 되는 정보만(그것의 사실 여부를 떠나) 선택적으로 취하고, 자신이 믿고 싶지 않은 정보는 의도적으로 외면하는 성향을 말한다. 다른 말로 자기 중심적 왜곡(myside bias)이라 부르기도 한다. 쉽게 말해 '보고 싶은 것만 보고, 듣고 싶은 것만 듣는' 보편적 현상이다.(위키백과)

확증편향이 작동하게 되면 저러한 피드백을 보편적인 것으로 간주하고, 그러다보면 피드백의 비중이나 유의성 등을 의도적이던 무의식적이던 간과하게 된다. 이러한 상태에서 증거의 품질을 따지려는 합리적이고 당연한 시도를 하게 되면 감정적인 문제로 발전하기도 한다. 또한 해당 증거의 신뢰도에 과도하게 가중치를 부여하는 과정에서 마찬가지로 추가적인 검증이 필요한 다른 제안에까지 무게가 실리는 경우도 있을 수 있다. 이번 사례에서도 이 피쳐로 인해 제품을 쓰는 사람이 생겼다 → 그런 사람들이 이런 부분이 있으면 더 완벽할 것 같다고 이야기했다로 확장되는 식의 전개를 관찰할 수 있었는데, 믿고자 하는 의견을 강화해준 존재가 불분명한 피드백 제공자의 지위가 격상되면서 그 사람의 다른 의견도 같이 강화되는 식이다.

프로덕트 매니저라면 당연히 증거의 품질을 판단하고, 어느 정도 수준으로 믿을만한지를 진지하게 고민해볼테지만 그렇지 않은 사람들과는 어떻게 논의하면 좋을까?

증거의 품질 논의하기

우선 위의 증거가 유의미한지 판단하려면 여러가지 질문을 던져봐야 할 것이다. 피드백 제공자는 어떤 사람인지, 어느 정도의 경력이 있으며 얼마만큼의 배경지식이 있는지, 다른 어떤 기능과 비교해 우리 서비스가 제공하는 가치 수준을 판단하였는지를 고려해볼 수 있다.

또한 피드백 제공자의 의견이 유의미해지려면 그 의견이 어느 정도의 대표성을 가지는지에 대한 판단이 필요하다. 유사한 의견을 준 사람이 몇명이나 되는지, 그 수는 다른 종류의 피드백과 비교하면 어떠한지, 기존 사용자들이 이 피쳐에 얼마나 만족하며 계속 사용하는지, 그들의 피드백은 어떤지도 고려해봐야 할 것이다. 또한 결과적으로 피쳐의 임팩트를 판단하려면 이 피쳐로 인해 제품을 쓰게 된 유저들이 있거나 리텐션, 방문 빈도 등이 상승했는지, 그 수가 유의미한지에 대해 판단이 필요하다.

위에 대한 리서치가 이루어지고, 기존 유저들의 피드백과 교집합이 충분히 있다는 판단이 있어야 해당 의견의 신뢰성이 검증되고 대표성을 가질 수 있을 것이다. 뭔가 당연한 이야기 같지만 현 회사의 제품 상황, 유저 베이스가 적고 피쳐를 많이 출시하지만 유저 수가 한동안 정체되어 있는 상황에서 Hippo가 유저 피드백에 민감하게 반응하면서 VoC 각각이 제품 발견에 영향을 미치는 경험을 자주 하고 있다. 출시 직후 휴가를 내고 여행 중이었는데, 그 와중에 슬랙에서 위와 같은 성급한 자축과 이런저런 의견이 오가는 것을 보며 다소 헛웃음을 지을 수밖에 없었다. 이 기능 출시 후 몇개월이 지났지만 사용자 수를 비롯한 주요 지표는 아직 제자리 걸음이긴 하다.


증거의 품질에 대한 합의

이 일을 돌아보면서 애초에 좀더 진지하게 피쳐의 성과를 파악하고 같은 선상에서 논의하기 위해서 어떤 노력이 필요한지 생각해보았다.

우선 피쳐 이니셔티브에 영향을 줄 수 있었는지를 돌이켜봐야 할 것 같다. 이 부분은 사실 상위 전략단에서의 방향성 설정 이슈였는데, 당시 입사한지 3개월 남짓이었고 그간 피쳐를 계속 쏟아내며 달려온터라 충분한 시장 분석과 마켓 리서치를 거치고 제품 비젼이나 전략에 대해 문서화하며 명확한 방향을 갖고 있는 상태는 아니었다. 제품 비젼이나 방향성도 전체 회의를 할때마다 바뀌거나 확장된다는 느낌을 받았고, 애초에 HiPPO가 우선순위나 피쳐로 전달하려는 가치에 대해 정량적인 기준을 가지고 고민하며 개발 우선순위를 선정해왔던 상황은 아니었다. 이런 상황에서 새로운 타겟 유저를 위한 기능 출시로 선회한 것인데 그 시점에 결정된 방향이 최선이 아님을 직관적으로 알 수 있었다고 해도 입사 후 몇개월이 안된 상황에서 전략적 방향을 바꾸는 것을 설득하는 것은 쉽지 않았을 것 같다. 결과적으로 피쳐 출시 후 유의미한 성과가 있지 않았기에, 이 실패를 통한 경험에서 경영진 및 PM인 내가 함께 학습하고 이후 전략에 대한 얼라인먼트에 도움을 줄 수 있을 것 같다.

좀더 강하게 개선할 수 있는 부분은 제품 개발전 성공 지표에 대한 합의를 이끌어 내는 것이라는 생각이 들었다. HiPPO는 A/B 테스팅에도 부정적이어서 테스트를 많이는 못하고 있는데, 테스트를 통해 실험 종료 후 바로 성공 또는 실패임을 파악하지는 못하더라도 결과를 판단하기 위한 최소한의 기준에 대해 합의가 선행되어야 할 것 같다. 이번 기능 출시 직후에도 HiPPO는 초두 효과를 무시하고 신규 메뉴의 클릭 수가 다른 메뉴 클릭 수에 비해 크게 차이나지 않고, 출시 후 얼마되지 않았는데 절대적인 클릭 수가 어느 정도 나왔다는 근거를 들며 피쳐가 성공적이라는 주장을 펼쳤다(유저당 평균 클릭 수가 높지 않다는 나의 지적은 출시한지 얼마 안되었으니 당연한 것이라며 묵살되었다).

허상 지표

메뉴 클릭 수는 좋은 성과 측정의 지표가 될 수 없다고 보는데, 비교 대상이 없는 절대적인 수치이기 때문에 그 자체만으로는 좋은 결과인지 알 수 없다. 우선 수치에 대한 가치 판단을 하기 어렵고 어느 정도의 수준인지 결론을 내렸다 하더라도 추가적인 조치를 하기 어려운 것 같다(액셔너블하지 않다). 사용자 수 대비 방문률도 출시 직후에는 좋은 성과 지표가 되긴 어려울 것 같고, 재방문률은 확실히 좋은 지표인 것 같다. 메뉴 화면에서의 경험을 개선함으로써 해당 지표를 끌어올릴 수 있고, 피쳐가 전달하는 가치 수준을 가늠할 수 있다.

대표적인 허상 지표로는 누적 다운로드 수나 가입자 수 등이 있는데 이는 당연히 시간이 지날 수록 늘어날 수밖에 없기 때문이다. 우리 회사를 비롯해 아직도 적지 않은 기업이 이런 지표를 핵심 지표로 소개하는 모습이 아직도 보인다(이는 현재의 작고 귀여운 유저 수 및 신규 가입자 수가 현상유지조차 못하고 있기 때문인 것 같긴 하다ㅠ)

린 분석을 보면 좋은 지표의 조건이 나오는데 그 조건은 다음과 같다.

1. 상대적이다: 시대별, 그룹별, 경쟁자별로 비교할 수 있어야한다.
2. 이해하기 쉽다: 지표에 대한 대화를 나눌 수 있어야 한다.
3. 비율로 표현되는데 비율로 표현하면
- 행동에 반영하기 쉽다
- 비교의 속성이 있다
- 대조적인 요소나 갈등이 있는 요소들을 비교하기 좋다
4. 행동 방식을 바꾼다: 지표 값의 변화에 따라 무엇을 변화시킬지 알 수 있다
- 사업 모델이 이상적인 모델과 얼마나 근접한지 확인할 수 있다.
- 데이터를 수집하기 전에 어떤 데이터 변화에 따라 어떤 행동을 어떻게 바꿀지 미리 합의해야 한다. 목표를 달성하지 못할 경우 다른 방안을 고민해봐야 한다.

허상 지표에 대한 설명을 한마디로 요약하면 '실행에 옮길 수 없는 데이터는 허상 지표다'라는 내용이다.

  • 이 지표로 어떤 비즈니스 결정을 내릴 수 있는지
  • 의도적으로 이 결과를 다시 만들어낼 수 있는지
  • 데이터가 진실을 반영하는 것인지

등을 고려하여 지표가 유의미한 것인지 아닌지 알 수 있다.

따라서 확증편향에 기초하여 어떻게든 피쳐의 성과가 좋다는 성급한 결론을 내리기에 앞서, 성공 여부를 판단하려면 어떤 지표가 어느 정도 올라갈 것을 기대하는지에 대한 논의가 사전에 필요했다. 또한 출시 자체로 영향을 받을 수 있는 출시 메뉴 클릭 수나 해당 메뉴에서의 체류시간은 큰 의미가 없을 수 있다. 다른 메뉴와 체계적으로 비교해본다면 상대적으로 더 나은 정보를 얻을 수 있겠지만 그것보다는 핵심지표에 어떠한 영향을 미치고 있는지, 지표가 의도한 방향으로 움직이고 있는지에 대한 판단이 중요했다. 

결과적으로 피쳐의 목적에 맞게 움직이고자 하는 지표, 그 수준, 핵심 지표가 있다면 거기에 미치는 영향 등에 대해 합의가 필요했다. 핵심 지표는 프로젝트를 고민할때 항상 정해놓는 지표인데, 이것이 제대로 정해졌는지에 대한 논의가 초반에 더 심도있게 필요하다. 그리고 가능한 빠르게 이를 측정할 수 있는 상황을 만들고, 논의를 관련 지표에 대해 한정해야 한다. 초반에 정해놓은 지표를 나중에 리포트를 위해 점검해볼때 조금씩 변경할 때가 있는데, 좀더 정밀함이 가미된 것이어서 불가피한 일인지 아니면 나조차확증편향을 뒷받침하기 위해 의식적으로 기준을 변경하고 있는 것인지 냉정하게 점검해봐야 할 것 같다.

이 피쳐의 성과를 파악하려고 했을때 무엇보다 A/B 테스트를 하지 않아서 정확하게 이 피쳐가 주요 메트릭에 끼친 영향을 알기 어려웠다. 그래서 리텐션과 방문 빈도 등의 변화 추이를 살펴볼때 최대한 바이어스를 피하기 위해 비교 기간 동안의 리텐션을 통으로 보지 않고 일별로 쪼개서 확인해보았고, 기간도 미세하게 계속 조정해서 확인해보긴 했다. 이게 혼자서 할 수 있는 최대한의 노력이었는지는 잘 모르겠지만...

제품 의사결정에 심도있는 분석이 항상 선행되어야 하고, 그 과정에서 직관이 아닌 분석과 과학적인 접근을 보편적인 프로세스로 받아들이는 문화가 형성되어야 할 것 같다. 최근에 만들고 있는 피쳐부터 킥오프시 목표로 하는 지표를 잘 공유하고 성공 여부를 냉정하게 평가해봐야 할 듯 하다. 최근에 약간 의욕이 떨어져서 성과 분석도 하는둥 마는둥 하고 있지만, 이 제품을 맡는 동안에는 제품 개발 문화 개선을 위해, 인터뷰 했던 몇십명의 유저들을 떠올리며 더 나은 제품을 만들도록 노력해봐야겠다. 

 

728x90