SmartHR Tech Blog

SmartHR 開発者ブログ

SREチームを発足しました

SmartHR の CTO を務めています佐藤大資です。 今回、開発メンバーの増員とチーム分割に併せて SRE チームを発足致しました。

SRE (Site Reliability Engineering) とは

現在、無料で公開されている書籍 Site Reliability Engineering にあるように、サービスを安定運用するためのチームです。 SmartHR を運用するにあたって、ソフトウェア・エンジニアリングを用いて、「骨の折れる問題」の解決を行ったり、サービスの安定性や信頼性を向上させるのが目的です。

チーム設立の経緯

SmartHR は現在約 3,000 事業所にご利用いただき、昨年の同時期と比べると、その伸び率は 600 %となります。 そして、サービスの発展と共に、安定性をいかに担保するかが重要となってきました。

既存機能のカイゼンと新機能の実装、そして運用を並列で行ってきましたが、全メンバーが機能開発を行っていると、運用やシステムの安定化や自動化の工数が取れずに疎かになり、開発チームを始め、カスタマーサクセスチームの負荷も高くなってしまう問題が顕在化してきました。 その中で、サービスの安定性を注視する役割が重要だということになり、今回の SRE チーム発足となりました。

今後、SREチームは、サービス水準目標(Service Level Objectives)を設定し、それを重要指標としてチーム内で共有し、指標の向上と安定を目指して取り組んでいきます。

現在、行っている業務としては、Docker によるレビュー環境の整備や開発からデリバリーまでのシームレスなライフサイクルの構築。 1,000 名規模の従業員を扱えるように、サービスの高速化や安定化。 併せて、サービス水準目標を達成するための指標取得や、SREチームのベース作りも行ってます。

SmartHR のサービス水準目標について

現在、SmartHR では下記の 4 つの項目を重要な目標として注視することを決定しました。

  • セキュリティ
  • サポート
  • 保守
  • アプリケーション

セキュリティでは、不正アクセスの検出や、脆弱性対応の時間、システム最新化までの時間など。 サポートでは、解決率や解決までの時間。 保守では、障害対応時間、原因判明率。 アプリケーションでは、稼働率、処理完了時間、デプロイ時間、テストカバレッジなど。

このような項目を目標として設定し、開発を行います。

さいごに

まだ、産まれたての SRE チームにジョインしてくれる人材を大募集中です! インフラからアプリケーションまで知見がある方、手作業が嫌いでプログラミングを使って便利にしたい方、是非一緒に働きませんか?

株式会社クフの採用/求人一覧 - Wantedly