Python | pandas | “describe”の利用方法

Pythonとは,高レベルの汎用プログラミング言語であり,読みやすさとシンプルさで知られている.Web開発やデータサイエンス,人口知能,機械学習など幅広く利用されている.なお,レベルの高低はハードウェアに近いかどうかを意味しており,レベルが低いとハードウェアに近いことを意味している.
Pandasとは,Python向けに人気のあるオープンソースのデータ操作および分析ライブラリーである.異なるフォーマットでの読み書きするツールに加えて,効率的にデータ保存および大規模なデータセットを操作するためのデータ構造を提供する.
Pandasには,2つの"class"である一次元データを利用する"Series"と二次元データを利用する"DataFrame"がある.これらのデータを操作・分析するのに,"Attributes"と"Methods"がある.
“Attributes"は,"Series"や"DataFrame"のプロパティや性質を示すものであり,データ構造についての情報を提供する.一方,"Methods"は,特定のデータ操作を実行する機能であり,データの計算や変換などを実行する.
本記事では,"Methods"の1つである"describe"についての利用方法を以下に記す.
実施環境
各バージョンの確認方法はこちら
OS: Windows11
VS Code: 1.85.1
Python 3.12.0
Pandas 2.1.4
Numpy 1.26.2
“describe"の説明
“describe"は,"Methods"の1つであり,各列ごとのデータの統計を生成する.
pandas | pandas.DataFrame.describe
数字の場合の項目
データが数字の場合,以下一覧が出力される.
- count: null以外の値の個数
 - mean: 平均
 - std: 標準偏差
 - min: 最小値
 - 25%: 下位25%に該当する値
 - 50%: 中央値
 - 75%: 上位25%に該当する値
 - max: 最大値
 
文字などの場合の項目
データが文字の場合,"数字の場合の項目"に加え",以下一覧が出力される.
- unique: 種類の個数
 - top: 最も頻出する値
 - freq: 最も頻出する値の頻度
 
“describe"の利用方法
数字データの出力
“df.describe()"を利用することで,data内の数字列の統計結果を出力することができる.
Pyファイルに以下を入力し,実行する.
import pandas as pd
# Create a sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'David'],
        'Age': [25, 30, 22, 25, 35],
        'City': ['New York', 'San Francisco', 'Los Angeles', 'New York', 'Seattle'],
        'Height': [160, 180, 175, 165, 190]}
df = pd.DataFrame(data)
print(df.describe())■実行結果
             Age      Height
count   5.000000    5.000000
mean   27.400000  174.000000
std     5.128353   11.937336
min    22.000000  160.000000
25%    25.000000  165.000000
50%    25.000000  175.000000
75%    30.000000  180.000000
max    35.000000  190.000000すべてのデータの出力
“df.describe(include=’all’)"を利用することで,data内の文字列も含むすべての列の統計結果を出力することができる.
Pyファイルに以下を入力し,実行する.
import pandas as pd
# Create a sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'David'],
        'Age': [25, 30, 22, 25, 35],
        'City': ['New York', 'San Francisco', 'Los Angeles', 'New York', 'Seattle'],
        'Height': [160, 180, 175, 165, 190]}
df = pd.DataFrame(data)
print(df.describe(include='all'))■実行結果
         Name        Age      City      Height
count       5   5.000000         5    5.000000
unique      4        NaN         4         NaN
top     Alice        NaN  New York         NaN
freq        2        NaN         2         NaN
mean      NaN  27.400000       NaN  174.000000
std       NaN   5.128353       NaN   11.937336
min       NaN  22.000000       NaN  160.000000
25%       NaN  25.000000       NaN  165.000000
50%       NaN  25.000000       NaN  175.000000
75%       NaN  30.000000       NaN  180.000000
max       NaN  35.000000       NaN  190.000000特定の1つの列データの出力
“Age"列のデータ出力をする場合,"df['Age’].describe()"を利用することで,data内の"Age"列の統計結果を出力することができる.
Pyファイルに以下を入力し,実行する.
import pandas as pd
# Create a sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'David'],
        'Age': [25, 30, 22, 25, 35],
        'City': ['New York', 'San Francisco', 'Los Angeles', 'New York', 'Seattle'],
        'Height': [160, 180, 175, 165, 190]}
df = pd.DataFrame(data)
print(df['Age'].describe())■実行結果
count     5.000000
mean     27.400000
std       5.128353
min      22.000000
25%      25.000000
50%      25.000000
75%      30.000000
max      35.000000
Name: Age, dtype: float64特定の複数の列データの出力
“Age"列と"City"列のデータ出力をする場合,"df[['Age’, 'City’]].describe(include=’all’)"を利用することで,data内の"Age"列と"City"列の統計結果を出力することができる.
Pyファイルに以下を入力し,実行する.
import pandas as pd
# Create a sample DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie', 'Alice', 'David'],
        'Age': [25, 30, 22, 25, 35],
        'City': ['New York', 'San Francisco', 'Los Angeles', 'New York', 'Seattle'],
        'Height': [160, 180, 175, 165, 190]}
df = pd.DataFrame(data)
selected_columns = df[['Age', 'City']].describe(include='all')
print(selected_columns)■実行結果
              Age      City
count    5.000000         5
unique        NaN         4
top           NaN  New York
freq          NaN         2
mean    27.400000       NaN
std      5.128353       NaN
min     22.000000       NaN
25%     25.000000       NaN
50%     25.000000       NaN
75%     30.000000       NaN
max     35.000000       NaN参照
pandas | pandas.DataFrame.describe
以上


