はじめに
最終更新日:2025年4月7日
この文書は、Excelを用いてデータ実証を行う方法をまとめたものです。和歌山大学経済学部の統計学入門を履修した学生を対象にしていますが、基礎的な統計学の知識があれば、履修していない方でも理解できる内容です。
分析には、ExcelやGoogle Sheetsなどの表計算ソフトを使うことを想定します。ですが、具体的な関数の話以外は、他の統計ソフトを使う際にも適用できるものです。まずは実際に手元のデータで何ができるかを知りたいという方へのヒントにもなると思います。
「実際に起こりうるシチュエーションにおいて、どのようにデータを活用するか」を主眼に置いているため、厳密さより分かりやすさを優先した記述があります。ご了承ください。
学習内容について
具体的には、以下の内容を学習します。
- 記述統計と推測統計の違いを理解する
- 記述統計の基礎的な手法を身に着ける
- 手元のデータを適切に加工し、表やグラフを作成する
- 統計量(特に平均、分散と標準偏差、共分散と相関係数)を計算し、データの特徴を理解する
- 推測統計の基礎的な手法を身に着ける
- 仮説検定の手順を身に着ける
- 回帰分析を行う
- 因果推論について知る
データの種類と構造について
データの種類や目指すべきデータ構造など、基本的な事項はデータを用いた実証分析Aの資料#はじめにを参照してください。
ここで使用するデータについて
次の章から、実際にデータ分析を行っていきます。
今後扱うデータは、学食の売り上げデータを想定して作成したデータです。
みなさんは、このデータを使って「学食の売上向上プロジェクト」を進めていきます。このようなシチュエーションにおけるデータ活用方法を学びながら、基礎的な統計分析の手法を身につけましょう。
データは以下のリンクからダウンロードしてください。
ダウンロードしたファイルをExcelで開くと、以下のような画面が見れると思います。
このデータは「綺麗なデータ」になっているので、1番上の行に変数名、1番左の列(A列)にIDが入っています。
以下の表で、各変数の説明をしています。
変数名 | 説明 | 値の範囲 |
---|---|---|
id | 売上ID、各売上ごとにユニークな識別番号 | 1~512 |
date | 日付 | 2025/4/1~2025/4/17 |
day_week | 曜日 | 日、月、火、水、木、金、土 |
gender | 性別 | 男、女 |
age | 年齢(歳) | 18~ |
position | 職位 | 学生、職員 |
item | 商品名 | 麺、丼、定食 |
sales | 売上金額(円) | |
temp | 気温(℃) | |
campaign | キャンペーン | 0, 1 |
以降の章では、このデータを使いながら、統計分析を行っていきます。
用語解説
以降の章で頻出する用語について解説します。
用語 | 意味 | 備考 |
---|---|---|
変数 | 調査項目 | (例)身長 |
観測値 | 調査の結果 | (例)回答者それぞれの身長 Aさん: \(160cm\)、Bさん: \(172cm\)、・・・ |
母集団 | 調査や分析の対象となる全体の集まり | (例)全国の大学生の平均身長を調べる場合→母集団は「全国のすべての大学生」 |
データ(標本) | 観測値の集まり | (例)全回答者の身長 \(\{160cm, 172cm, 158cm, …\}\) ※「個々の観測値」と「データ(観測値の集まり)」は区別する |
データサイズ(サンプルサイズ) | データに含まれる観測値の個数 | (例)回答者の数 |
データ数(サンプル数) | データの個数 | (例)1つの大学を対象に4月と10月の2回調査を行ったとき→データ数は2 ※観測値の集まりであるデータの個数であり、1つのデータに含まれるサンプルの数とは別なので注意 |
量的データ | 数字で表されるデータ | 数字の大小に意味があり、足し算や引き算をした値にも意味を持つデータのこと (例)気温、売上金額、人口など |
カテゴリデータ | 数字で表されないデータ | 足し算や引き算をした値に意味を持たないデータのこと データに順序があるものとないものがある (例)血液型、出身地、満足度など |