aws 인프라 구축할 때 플랫폼들을 모니터링해서 서비스가 중단되면 바로 슬랙과 이메일로 알림이 3분 단위로 체크해서 발송하게 만들어 놓았다.
그런데 어제 밤에 이메일 수신함에 천건이 넘게 이메일이 와 있었다.
새벽에 잠시 업무 트래킹과 상태 체크하다가 발견했다.
사내 그룹웨어로 하이웍스를 쓰고 있는데 이메일 수신 알림이 제대로 하이웍스 앱에 푸시되지 않아서 확인이 못하고 있었다. (하이웍스 ㅠㅠ 를 회사 컴에 설치하고 켜놓고 로그아웃 안하고 퇴근하면 양쪽에 알림이 다 안가는거 같다.)
다행히 해당 이슈가 슬랙에도 전송되고 있어서 직원들이 보고 체크하고 있었다. (역시 슬랙)
그런데 직원들의 체크 내용을 보니 플랫폼 세 곳 모두 정상 작동하는데 왜 계속 이슈가 전송되는거지? 라면서 다들 이상이 없는 지 더 찾아보고 있었고 나도 플랫폼들을 확인해본 결과 aws Canary 에서 체크하고 있는 모든 곳은 이상이 없었다.
그렇다면 이건 오발송인 것인데 천건이 넘는 메일을 직원들 모두에게 발송하고 슬랙도 수천건이 발송이 되었다는 건 오랜 시간동안 주말 내내 뭔가 이상이 발생했다는 것이다.
Unable to open a blank page 라는 오류 제목으로 설명에는 'Error: Protocol error(Page.navigate): Seesion closed. Most likely the page has been closed.' 라는 내용이 나왔다.
이 것은 우리 플랫폼 쪽 문제가 아니라 모니터링 하는 기능이 제대로 작동이 안되는 것이다.
그런데 상단을 자세히 보니 ....
어라? 설마 지원하지 않는다고 기존 설정한 런타임을 중단 시켜버린건가? 해서 해당 Canary 편집을 눌러 수정 페이지로 들어갔다.
런타임 버전 선택했던 syn-nodejs-puppeteer-6.1 은 어디가고 비어져 있었다.
선택할 수 있는 6.2 로 선택하고 저장하였다.
이제서야 정상적으로 작동한다.
갑자기 이렇게 중단시켜버려서 놀라기도 했지만 경고 문구들을 미리 챙겼어야 했던 내 실수도 있다.
그런데 카나리 같은 경우는 너무 경고 안내가 약해서 놓치게 되버린다 ㅠ
모니터링 알림 이메일은 다른 이메일로 변경해야겠다.
슬랙도 @here 로 노티했는데 @channel 로 변경 노티해야겠다.