統計局の調査データを、順にPythonでグラフ化していこうチャレンジを始めました。
よくわからない状態ではありましたが、とりあえず最新の「労働力調査」の月次調査(2024年8月)の1個目の統計表をダウンロードして円グラフを作ってみたりしたのですが、これだとあまりPythonの練習にならないことに気づき、「API機能」に手を出してみることにしました。
とりあえず、「就業状態別15歳以上人口(2000年1月~)」という統計表のデータが取得できるようになったのですが、正直よくわかりません。
数日、放置して何かアイデアが降ってこないかな?と思ったのですが、残念ながらそんな都合のいいことは起こらなかったので、
まずはグラフは置いておいて、
この読み込めるようになったデータを私が理解しやすい形にしようと思い至りました。
DataFrameで、私でも無理なく理解できる表みたいな形にしたいと思います。
ちなみに、この作業に先立って、「paizaラーニング」というサイトの「Pythonデータ分析入門」という講座を受けました。
どうしても、グラフを作る気が起きなくて。
でも勉強し直したので、気持ちも新たに再チャレンジです!
とにかく、私には中身が膨大過ぎるので、どこになにがあるかわからない。
でも、数字を調査した年月のデータのまとまりがありそうなので、まずはそこだけを取り出して表示できるようにしてみました。
調査年月を手に入れたので、調査結果の数字を見つけ出して紐づければ、私でも理解できる表(DataFrame)になるはず!
それっぽいものをDataFrameにできましたが、なんと調査年月の15倍も数があります。
「@cat02」と「@cat03」の数字が最初と最後で違うので、ここが関係しそうです。
仕方がないので、「CLASS、、、」という分類の説明のところに戻って確認することにしたいと思います。
「@cat02」が5種類、「@cat03」が3種類ありそうです。
で、ここで、
だからどうしたらいいのか?
私の普通の気持ちとしては、カテゴリごとに別の列にして調査年月とくっつけたい。
けど、どうやってそうしたらいいのかしら?
カテゴリ名をレコードごとに追記しても4440行に変わりはなく、「だから?」ってことになるし。
、、、フィルタ?でしょうか?
dataの方のDataFrameを「@cat02」と「@cat03」で抽出して、カテゴリ名つけた列に入れる。的なことを思いついたのでやってみたいと思います。
が、ちょっともう疲れたので一旦、休憩します。