SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Pythonによるデータ解析入門

Pythonでデータと向き合いながら価値を見出す「探索的データ解析」に挑戦しよう

Pythonによるデータ解析入門 第2回

  • このエントリーをはてなブックマークに追加

 本連載では、プログラミングの基本は理解していて、より実践的なデータ解析に取り組みたい方を対象に、スクリプト言語によるデータ解析の実践を解説します。スクリプト言語のなかでも特にデータ解析に役立つライブラリや環境が整っているPythonを取り上げ、対話型解析ツールやライブラリについて導入から解析の実行・可視化までを解説します。第2回では、Pythonによる探索的データ解析を解説します。まず対話的環境による探索的データ解析について確認し、Jupyter Notebookを使ったデータ解析の実行・可視化までの手順を解説します。

  • このエントリーをはてなブックマークに追加

対象読者

  • Pythonの基本的な文法を理解しておりデータ解析のスキルアップに取り組みたい

サンプルの動作確認環境

  • MacOS 10.13
  • Anaconda 5.1
  • Python 3.6
  • Jupyter Notebook 5.4

探索的データ解析の流れを確認

 まず対話型環境による作業の流れを確認します。Jupyter notebookのような対話型環境では、次の流れに従って作業が進みます。

  • コードを書く
  • 実行する
  • 結果を表示する
  • 以上を繰り返す

 この繰り返しはREPL(Read-Eval-Print Loop)と呼ばれます。この作業の流れはデータ加工やモデル(統計や機械学習の数理モデル)を少しずつ組み立てていく際に役立ちます。より一般的なコーディング作業の流れ(編集、コンパイル、実行、デバッグの繰り返し)では、プログラムを完成させてから分析を行うことになります。コードを書いて分析までのサイクルが大きくなり、作業量と時間は大きくなりがちです。

 対話型環境では小さな実験的なコードから順に組み立てを行い、パラメータを少しずつ調整する作業になります。この作業の流れは、モデルを試行錯誤しながら作成するのに適しています。

探索的データ解析とは

 探索的データ解析とは、モデルありきではなく、データを実際に観察したり加工したりしながらデータの価値を見いだしていく解析手法です。

 「仮説検証型データ解析」が仮説を先に立てて、それを検証するためにデータを確認していくのに対して、探索的データ解析では仮説を立てず、データ自体と向き合いながら分類や分割など繰り返しながら特徴的なデータを探索していきます。

 探索的データ解析では、先述した対話型の環境によるコーディング作業の流れが相性がよいです。今回は対話型環境としてJupyter Notebookを用いながら探索的データ解析をしていくプロセスを紹介します。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

次のページ
はじめての探索的データ解析に挑戦

この記事は参考になりましたか?

  • このエントリーをはてなブックマークに追加
Pythonによるデータ解析入門連載記事一覧

もっと読む

この記事の著者

WINGSプロジェクト 西 潤史郎(ニシ ジュンシロウ)

WINGSプロジェクトについて>有限会社 WINGSプロジェクトが運営する、テクニカル執筆コミュニティ(代表 山田祥寛)。主にWeb開発分野の書籍/記事執筆、翻訳、講演等を幅広く手がける。2018年11月時点での登録メンバは55名で、現在も執筆メンバを募集中。興味のある方は、どしどし応募頂きたい。著書記事多数。 RSS Twitter: @yyamada(公式)、@yyamada/wings(メンバーリスト) Facebook<個人紹介>フリーランスとしてデータ解析エンジニアとして主にビッグデータ関連の仕事をしています。TableauなどBIやビッグデータ処理などビジネスデータ解析環境の構築・運用、また解析系のアプリケーション開発やGoogleアナリティクス活用支援などを行っています。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

山田 祥寛(ヤマダ ヨシヒロ)

静岡県榛原町生まれ。一橋大学経済学部卒業後、NECにてシステム企画業務に携わるが、2003年4月に念願かなってフリーライターに転身。Microsoft MVP for Visual Studio and Development Technologies。執筆コミュニティ「WINGSプロジェクト」代表。主な著書に「独習シリーズ(Java・C#・Python・PHP・Ruby・JSP&サーブレットなど)」「速習シリーズ(ASP.NET Core・Vue.js・React・TypeScript・ECMAScript、Laravelなど)」「改訂3版JavaScript本格入門」「これからはじめるReact実践入門」「はじめてのAndroidアプリ開発 Kotlin編 」他、著書多数

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/11043 2018/09/06 14:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング