ついに本サイトもめでたく外形監視を行うようにしたので雑に手順を残しておきます。

下記の続きです。

動機 & やりかた


動機

明日(4/18)の日中にサーバメンテナンスでサイトがダウンするので 私は見届けたい…この目で確かに 見届けることができませんでした…(後述)

やりかた

外形監視は次のような感じにします。

  • AWS Lambdaで定期的にGETリクエストを投げる
  • ダウンしていた場合はAWS LambdaからAWS SNSのメッセージを発行する
  • メールが届く!!

という感じです。というわけで雑に手順を書いていきます。

Lambdaの環境について


現時点のAWS Lambdaで利用できる最新のNode.js v8.10.0でやってます。

コードを書く


もういきなり雑に完成したコードから書くとこんな感じになりました。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
function getRequest() {
const https = require('https');

return new Promise((resolve, reject) => {
https.get("https://yourdomain.example.com", (response) => {
const { statusCode } = response;
if (parseInt(statusCode) === 200) {
resolve("Operational");
} else {
reject("Down!! " + statusCode);
}
}).on("error", (error) => {
reject("Down!!\n\n" + error);
});
});
}

async function send(message) {
const aws = require('aws-sdk');
aws.config.update({region: 'ap-northeast-1'}); //リージョン指定します

const params = {
Message: message.toString(),
TopicArn: 'arn:aws:sns:ap-northeast-1:12345678901234567890abcdefg' //SNSのトピックARNを指定
};

const publishTextPromise = new aws.SNS({apiVersion: '2010-03-31'}).publish(params).promise();
publishTextPromise.then((data) => {
console.log("Sent to SNS MessageID is " + data.MessageId);
}).catch((err) => {
console.error(err, err.stack);
});
}

async function handle() {
getRequest().then((s) => {
console.log(s);
}).catch((e) => {
console.log(e);
send(e);
});
}

// AWS Lambda実行するエントリーポイント的なの
exports.handler = async (event, context, callback) => {
callback(null, handle());
};

Node.jsのhttps.getで対象のURLにGETリクエスト投げてステータスコードでダウンしてるかどうか判定してます。

コードに記載している通り、ステータスコードが200以外だとダウンしているとみなすこととしました。3xxとか4xxを除外したのはトップが200以外で返ってくることは…まあ、ないので…。たぶん…。

ちょっと引っかかったのはGETリクエストから全部Promiseで返しまくってるので、AWS Lambda実行するエントリーポイント的なの(最後の匿名関数)でcallbackに実行する関数を放り込んでやらなければならなかったとこです。動いてるのでたぶんそういう理解であってると思います。

Lambdaの設定


定期実行

定期実行のやり方は前回書いた通りです。ただ、今回は15分に1回の実行にしました。どうせすぐ気づいたところで仕事中なのでどうしようもできないですし。まあ、ホビーサイトですしお寿司。

ロールの権限

実行ロールに対してSNSへのメッセージ発行権限を与えてやらないとSNSメッセージ発行時にエラーが発生します。

実行ロールへの権限付与は上図の最下部「IAMコンソールでxzyのロールを表示します」のとこからIAMに遷移できるのでそちらで設定すればよいです。

タイムアウト設定(追記)

え~、7秒に設定していたのですが、実際にサイトがダウンした際には7秒だと足りませんでした。サイトがダウンした時間帯のCloudWatchLogには下記のように制限時間をオーバーした旨のメッセージが表示されてました。もっと引き上げる必要がありました。

1
Task timed out after 7.01 seconds

実行してみる


存在しないドメイン入れてみたり200以外のステータスコードが返ってくるようなリクエストを投げてみたりしてメールが来るのを確認できました。これで明日も動くはず…。

CloudWatchのログも15分おきに出力されてます。

ちなみに、Outlookはやはりスパムフィルターレベルがイマイチでホワイトリストに入れないと迷惑メール扱いになります。MSさんもうちょっと頑張って欲しい…

感想


これが噂の「サーバレス」とかいうやつらしいですよ。たぶん。「思ったより大したことやってないんだなぁ」という感じです。もちろん、こんなホビーサイトじゃなくてプロダクションで使うならもっといろいろと制約があるとは思うのですが…。

これで明日(4/18)の日中にメールが届くはずです。なんとか間に合いました。ワクワクしますね。JavaScriptが若干怪しいにほいがするのですが、まあ、私JavaScript良く知らないのでこんなもんなんじゃないかと思います。

追記


既に記載のとおり、タイムアウト設定していた時間をオーバーしてしまい、メールは届きませんでした。…残念。CloudWatch Eventで特定の値が含まれていたらメールとかにした方がいいかもしれないですね。