サイトスピード指標の対数正規分布を確かめる

Core Web Vitals をはじめとするサイトスピード指標の多くは、対数正規分布 に基づくとされている。

実際に Google はその前提に基づき PageSpeed Insights のスコアを設計しており、弊社も「そのようなものだ」としてデータを扱っている。

しかし今一度、その前提を自分の目で確かめてみようと思った。

この記事では、サイトスピードに特化した無料のアクセス解析ツールである Speed is Money で計測したサイトスピード指標が本当に対数正規分布に基づくのか、いくつかの視点から確認をしてみた。

対数正規分布とは

はじめに 対数正規分布 とは何か。「対数」のつかない 正規分布 はよく知られている。平均値を中心とした左右対称の釣鐘型の分布だ。

正規分布

統計分析を理解しよう：正規分布、標準化、標準正規分布の概念　|ニッセイ基礎研究所より引用

一方、対数正規分布は正規分布にやや似ているが右側がなだらかな坂になっている。正確には正規分布の対数を取ったものが正規分布に従う分布である。

対数正規分布

【徹底解説】対数正規分布とは | Academaidより引用

感覚的には 「正規分布のように一定のボリュームゾーンがあるが、大きい方の値は極端に大きいものまで発散がちになる」 といった理解でよいだろう。

身近な例では身長は正規分布に従い、体重は対数正規分布に従うと言われることがある。例えば成人男性の平均身長を 170cm とすると、2 倍の 340cm という身長はまずありえない。しかし体重は平均 60kg とすると、2 倍の 120kg という体重はあり得るし、もっと大きな体重の人もいる。

ページの読み込み時間(OnLoad)の理論的分布

以下はとある通販サイトのページ読み込み時間(Onload)のサンプルから描いたヒストグラムと、理論的に計算された対数正規分布を赤い線で示したものだ。

OnLoadにかかった時間(ms)のヒストグラム、対数正規分布の近似曲線、平均値、中央値

INFO

モバイル端末でのサンプルを抽出している。また、遅いサンプルは極端に遅く、グラフが右に伸びすぎしてしまう。そのためサンプルは 99 パーセンタイルまでで絞り込んでいる。

両グラフの形状は酷似しており、感覚的にはほぼ一致と言えそうだ。

正規分布化

対数正規分布は、X 軸を対数目盛にすると正規分布と同じ形状になる分布 と言い換えることもできる。

上記と同じページ読み込み時間(OnLoad)に対し、自然対数をとったデータのヒストグラムと、理論的な正規分布(赤い線)を重ねたものだ。

INFO

上記のグラフは平均値が中央に見やすくなるよう、対数を取ったデータの平均値から ±4σ に絞りこんでいる。

右上に多少飛び出しが見られるが、こちらも形状の差異は小さい。

正規分布の検定

サンプルが正規分布に基づくか確率的に検定する方法がいくつかある。それを計算してみた結果が以下だ。

残念ながらいずれの方法でも 「正規分布に基づくとは言えない」 という結果となった。

シャピロ=ウィルク検定
ShapiroResult(statistic=0.9975211655795352, pvalue=1.6639813843026255e-28)
コルモゴロフ=スミルノフ検定
KstestResult(statistic=0.9999999998390625, pvalue=0.0, statistic_location=6.2878585601617845, statistic_sign=-1)
ダゴスティーノの歪度検定
SkewtestResult(statistic=-6.180829491913321, pvalue=6.376565892991275e-10)
ダゴスティーノの尖度検定
KurtosistestResult(statistic=2.199180579201117, pvalue=0.027865084693154626)
オムニバス検定
NormaltestResult(statistic=43.03904842804084, pvalue=4.5101333284193215e-10)