Pandas入門
この記事は執筆中です。今後加筆される予定です。
Pandasでの作業の流れ
- csvファイル等を読み込む
- 読み込んだデータを加工して分析
- 加工したデータ・分析した結果を、図やcsvとして出力
というのがよくある流れだと思います。この記事では、まずは、1と3の入出力の方法について紹介します。
なお、以下のコードは、
|
|
のようにライブラリをimportしてあることを前提に書いてあります。
入出力
csvファイル等の読み込み
基本
|
|
より良い方法
読み込みたいデータの内容がわかっている場合には、必要な列とその型を指定した方が読み込みが早いようです(参考)。
|
|
もっと詳しく知りたい場合はこの記事を見ると良いです(Excel・JSON・pickleについても記事内にリンクがあります): https://note.nkmk.me/python-pandas-read-csv-tsv/
csvファイル等の書き出し
|
|
一部の列だけ保存したい場合:
|
|
もっと詳しく知りたい場合はこの記事を見ると良いです(Excel・JSON・pickleについても記事内にリンクがあります): https://note.nkmk.me/python-pandas-to-csv/
図のプロット
折れ線グラフなら:
|
|
グラフの種類変更
グラフの種類を棒グラフや円グラフにしたい場合は:
|
|
他に用意されているグラフの種類を知りたい場合は、ドキュメント参照。
軸のラベル設定
x軸, y軸のラベル名を変えたい場合は、
|
|
のように指定する。
図の保存
|
|
保存した画像を見てみて、文字が見切れている場合は、
|
|
とすればいい感じになる。
詳細
pandasのplotについてもう少し詳しく知りたい場合には以下を参照: https://note.nkmk.me/python-pandas-plot/
凝った図を作りたい場合はmatplotlibを直接使うと良い。参考: https://qiita.com/nkay/items/d1eb91e33b9d6469ef51
データ構造の種類:DataFrameとSeries
Pandasのデータ構造としては、DataFrameとSeriesの2つがあります。
DataFrame
DataFrameは、数学の行列に列名(header)と行名(index)をつけたものをイメージするとわかりやすいと思います。
|
|
csvやExcelからread_csvでデータを読み込むコードで、
|
|
dfと書いたのは、DataFrameの略でした。read_csvの返り値は基本的にDataFrameです(ドキュメント: read_csv)。
Series
Seriesは、DataFrameから1列抜き出したものと考えるとわかりやすいと思います。
|
|
実際、DataFrameから例えば以下のようにSeriesを抜き出すことができます。
|
|
DataFrameとSeriesの変換
DataFrame→Series
列を抜き出す場合は前述の通り:
|
|
行を抜き出したい場合はこの記事を参照。
Series→DataFrame
SeriesのListからDataFrameを作れると便利な時がある。 各Seriesを列にしたい場合は:
|
|
各Seriesを行にしたい場合は:
|
|
詳細
もっと詳しく知りたい場合はこの記事を見ると良い: https://note.nkmk.me/python-pandas-dataframe-series-conversion/