SmartHR の CTO を務めています佐藤大資です。 今回、開発メンバーの増員とチーム分割に併せて SRE チームを発足致しました。
SRE (Site Reliability Engineering) とは
現在、無料で公開されている書籍 Site Reliability Engineering にあるように、サービスを安定運用するためのチームです。 SmartHR を運用するにあたって、ソフトウェア・エンジニアリングを用いて、「骨の折れる問題」の解決を行ったり、サービスの安定性や信頼性を向上させるのが目的です。
チーム設立の経緯
SmartHR は現在約 3,000 事業所にご利用いただき、昨年の同時期と比べると、その伸び率は 600 %となります。 そして、サービスの発展と共に、安定性をいかに担保するかが重要となってきました。
既存機能のカイゼンと新機能の実装、そして運用を並列で行ってきましたが、全メンバーが機能開発を行っていると、運用やシステムの安定化や自動化の工数が取れずに疎かになり、開発チームを始め、カスタマーサクセスチームの負荷も高くなってしまう問題が顕在化してきました。 その中で、サービスの安定性を注視する役割が重要だということになり、今回の SRE チーム発足となりました。
今後、SREチームは、サービス水準目標(Service Level Objectives)を設定し、それを重要指標としてチーム内で共有し、指標の向上と安定を目指して取り組んでいきます。
現在、行っている業務としては、Docker によるレビュー環境の整備や開発からデリバリーまでのシームレスなライフサイクルの構築。 1,000 名規模の従業員を扱えるように、サービスの高速化や安定化。 併せて、サービス水準目標を達成するための指標取得や、SREチームのベース作りも行ってます。
SmartHR のサービス水準目標について
現在、SmartHR では下記の 4 つの項目を重要な目標として注視することを決定しました。
- セキュリティ
- サポート
- 保守
- アプリケーション
セキュリティでは、不正アクセスの検出や、脆弱性対応の時間、システム最新化までの時間など。 サポートでは、解決率や解決までの時間。 保守では、障害対応時間、原因判明率。 アプリケーションでは、稼働率、処理完了時間、デプロイ時間、テストカバレッジなど。
このような項目を目標として設定し、開発を行います。
さいごに
まだ、産まれたての SRE チームにジョインしてくれる人材を大募集中です! インフラからアプリケーションまで知見がある方、手作業が嫌いでプログラミングを使って便利にしたい方、是非一緒に働きませんか?