Excel(エクセル)で最頻値を求めるMODE関数・MODE.SNGL関数の使い方
使用関数:MODE、MODE.SNGL
最頻値とは?
データの中で最も多く出現する値を最頻値(さいひんち)と言います。「最も頻度の高い値」です。「1・2・3・3・4・5」のように並んだ数値があれば、その最頻値は「3」ということですね。最頻値は中央値と並んでデータの統計によく使われます。
英語ではモード(MODE)。ここで紹介するMODE.SNGL(モード・シングル)は、データの中から最頻値を一つだけ求めるExcelの統計関数の一つです。
MODE関数はExcel2010以降、MODE.SNGL関数に置き換わっています。この関数は「統計」ではなく、「互換性」に格納されています。
使い方はMODE.SNGL関数と同じです。今後サポートが終了することも考えられるので、なるべくMODE.SNGLを使用するようにしましょう。
MODE.SNGL関数の書式
「数式」タブ「関数ライブラリ」→「その他の関数」→「統計」→ MODE.SNGLをクリックします。
MODE.SNGL関数の引数は「数値1」が必須で、「数値2」以下は任意です。「数値255」までの指定が可能です。
書式の構成はこうなります。
MODE.SNGL関数で最頻値を求める
会員特典の月間利用回数のデータ表でMODE.SNGL関数を実行してみましょう。
MODE.SNGL関数の引数ダイアログで「数値1」に利用回数の範囲をドラッグで指定します。
最頻値が求められました。
MODE.SNGL関数で返される最頻値は一つだけです。2つ、3つの最頻値があったとしても、一番最初にある最頻値だけが返されます。
Excelで2つ以上の最頻値を求めるには、MODE.MULT関数を使います。
最頻値と中央値・平均値の使い分けのポイント
最頻値は平均値、中央値とセットで説明されることの多い統計用語です。3つともデータ群における中心的な位置を示す値で、「代表値」または「要約統計量」と呼ばれます。
最も一般的な代表値は平均ですが、データの総和をデータ個数で割り算して求める平均値は異常値や外れ値の影響を受けやすい特徴があります。飛び抜けて大きな(または小さな)数値が一つ混じると平均値は変動し、正確な代表値からは遠くなります。対して、中央値・最頻値は極端な大きさのデータが入り込んでも、その影響をほとんど受けません。
外れ値や異常値のない正規分布(左右対称の釣鐘型を描くような分布)では最頻値・中央値と平均値が同じか極めて近い値になります。
このような安定的な分布のデータでは平均値・中央値・最頻値のどれを使っても同じですが、分布に偏りのあるデータでは最頻値・中央値の方が実態を正確に反映した数値になります。
とは言え、中央値・最頻値が万能な代表値というわけではありません。外れ値の影響を受けにくいのは、裏返せばデータの細部の状況を反映しにくいということでもあります。出現頻度が誤差の範囲の値が多数散らばっている中での最頻値は統計データとしてあまり意味を持ちません。また、最頻値はデータ数が少なすぎても使えません。
平均値 | 短所 | 外れ値の影響を受けて、結果が上下する |
---|---|---|
長所 | ExcelのオートSUMで操作が簡単。データの変化を結果に反映できる | |
中央値 | 短所 | データの細部が結果に反映されない |
長所 | 外れ値の影響を受けにくい | |
最頻値 | 短所 | データの細部が結果に反映されない。データ数が少ないと使えない |
長所 | 外れ値の影響を受けにくい |
度数分布表やヒストグラムから最頻値を求める
「度数分布表」は階級というデータの区間を分類して、その区間のデータ数を表にしたものです。この「度数分布表」から作成するグラフが「ヒストグラム」で、データの代表値を直感的、視覚的に読み取ることができます。
度数分布表とヒストグラムから最頻値を求めるのはとても簡単です。
度数分布表の最も多い度数の区間、ヒストグラムの最も高い系列の区間の幅の真ん中に位置する値を求めます。この値は各区間の「階級値」と呼ばれ、区間の幅(この例では10点刻み)の半分(5点)を区間の最小値(70点)に加算して求めることができます。この例での最頻値は75点です。
度数分布表とヒストグラムの作り方を分かりやすくまとめています。
- MODE.SNGL(モード・シングル)は最頻値を一つだけ求める関数です。複数あったとしても最初の最頻値だけが返ります
- 最頻値とはデータ範囲中に最も多く出現する値のことです
- MODE関数はExcel2010からはMODE.SNGLに置き換わり、互換性関数に入っています
- 平均値は異常値や外れ値の影響で上下に大振れしますが、最頻値は安定した値を返します
- 度数分布表やヒストグラムから最頻値を求めるには、最も数の多い区間の階級値を計算します