[재발방지완료] Real Device (라미엘) 관련 API 장애로 인한 일부 gendo 작업 실패
Incident Report for HBsmith
Postmortem

[원인]

  • 라미엘 서비스 확장
  • 장비 목록을 가져오는 API에서 예외처리의 보강이 필요하였음

[분석]

  • 라미엘에 연결된 리얼 디바이스 정보는 아래와 같이 관리됨:

    • 장비 추가 단계: 장비의 시리얼 넘버 등 필수 정보만 전송
    • 장비 정보 갱신 단계: 장비의 연결이 정상인 것을 확인 후 진행됨. 이 때 리얼 디바이스의 위치 등의 상세 정보를 전송함
  • 장비 연결이 정상이 아닐 경우, 특히 신뢰 설정을 하지 않음, 장비 접속에 필요한 상세 정보가 갱신되지 않게 됨

  • gendo 등 라미엘에서 제공하는 리얼 디바이스를 사용하는 모든 서비스는, 장비의 목록을 받아오는 API를 첫 단계에서 호출하고 있음 → 장비 정보가 갱신되지 않은 장비들에 의해 해당 API에서 오류가 발생 → 모든 라미엘 연관 서비스에서 오류 발생

[재발 방지]

Posted Jan 13, 2022 - 15:39 KST

Resolved
This incident has been resolved.
Posted Jan 13, 2022 - 15:10 KST
Update
긴급복구결과 문제가 되었던 Job들이 정상화 되었으며 근본 원인이 해결될 때까지 모니터링을 지속하겠습니다.
Posted Jan 13, 2022 - 14:50 KST
Monitoring
신규 Real Device 설치 및 이전작업중 관련 API에 문제가 발생하여 해결하였으며 긴급복구한 상태입니다.
근본 원인은 파악중이며 대응책을 아래 이슈로 진행중입니다.
https://hbsmith.atlassian.net/browse/DEV-13926
Posted Jan 13, 2022 - 14:49 KST
Investigating
알림 확인자 :

일부 테스트 봇(Gendo) 에서 에러가 발생하여 원인을 파악중입니다.
일부 테스트가 실패하거나 결과가 늦게 나올수 있습니다.
Posted Jan 13, 2022 - 13:58 KST
This incident affected: 테스트 봇 (gendo).