Blogress

機械学習関連ばっかり書きます

【青果×ポケモン】シンオウ地方ポケモンに青果商品のニックネームをつける

タイトルでわかるとおり、ネタ回です。 はじめに スーパーは好きですか。僕は好きです。 コンビニは割高なので、原則スーパーでしか買い物をしません。 また、超(スーパー)アルバイターとして約4年ほど働き、精肉、鮮魚、青果と渡り歩いてきました。 ポケモ…

スライディングウィンドウ処理をしたIMUセンサデータに対して、クラスタリングによるパターン抽出は有効か否か

はじめに 以前、Twitterにて 前略ーー時系列データをsliding windowで切り取ってkmeansしてパターン見つけるみたいな手法あるけどそれやると正弦波になって意味ないでみたいな話を思い出したーー後略 というものを見かけました。 時系列データの前処理として…

LSTMによる時系列データの教師なし異常検知

はじめに 以前(といってもかなり前)、オートエンコーダによる時系列データの教師なし異常検知に関して記事を書きました。 今回はその続きで、同じ心電図データを用いて、LSTMによる異常検知をしたいと思います。 noleff.hatenablog.com プログラム import …

Google Smartphone Decimeter Challengeの解法

Google Smartphone Decimeter Challenge 概要はこちら post-processing approach snap to grid (snap to ground truth) 地理情報を取得し、最寄りの位置(地理情報)に予測位置を補正する手法です。 このnotebookでは、地理情報のみのアプローチですが、trai…

初参加のKaggleで銀メダルとるためにしたこと(Google Smartphone Decimeter Challenge)

solutionはこちら はじめに 先日終了したGoogle Smartphone Decimeter Challenge(通称outdoorコンペ)に参加し、銀メダル(34位/810teams)をとることができました。 Kaggle初参加でしたが、相方の後輩とえっちらほっちらと蛇行しながらも、前に進めること…

groupbyしてvalue_counts()したい

タイトル通りです。 データ import pandas as pd from sklearn.preprocessing import LabelEncoder df = pd.DataFrame([ ['Aさん', 100, 'S', 'cola'], ['Bさん', 150, 'M', 'tea'], ['Cさん', 200, 'L', 'tea'], ['Dさん', 100, 'S', 'tea'], ['Eさん', 200…

複数ファイルのデータ結合方法(InvalidIndexError: Reindexing only valid with uniquely valued Index objects)

はじめに 複数ファイルにわかれたデータの結合方法のメモです。 InvalidIndexError: Reindexing only valid with uniquely valued Index objects というエラーとも戦いました。 データ 気象庁の気象データを使いました。 広島、高松、大阪、東京、那覇の5都…

Kaggle挑戦前時点でのデータ分析手法

はじめに 最近、重い腰を上げ、ようやくKaggleを始めました。 タイタニックやインターン限定のコンペ等には参加したことがありましたが、賞金が発生するようなKaggleに参加したことは、今までありませんでした。 データサイエンス及びエンジニアリングのスキ…

愛(AI)の力でパイモンを救いたい

ネタ回です。 前回の投稿から少し開きました。 就活と論文のダブルパンチで死んでたわけですが、また引き続き頑張ります。 はじめにのはじめに 本記事で出てくる画像は以下から引用してます。 株式会社miHoYo corp.mihoyo.co.jp Bossard, Lukas and Guillaum…

機械学習(pcaとkmeans)による画像のグルーピング

はじめにのはじめに 本記事で出てくる画像は一部、以下から引用してます。 株式会社MIHOYO corp.mihoyo.co.jp はじめに 自分で集めた画像でCNNするために、TwitterAPIの検索機能を使って画像を集めています。 集めている画像は特定の作品のキャラクターだっ…

カテゴリ変数(質的データ)の前処理の違いまとめ

はじめに 一般的に機械学習においてカテゴリ変数は、前処理として数値化する必要があります。 本記事ではその前処理の方法と違いについてまとめです。 データの種類と意味 下図のように変数は4つの尺度に分けられます。 今回説明するのは名義尺度と順序尺度…

機械学習のおおまかな流れを理解する

この記事は SLP KBIT Advent Calendar 2020 12日目の記事です。(じゃあなぜ 13日に公開しているのか) adventar.org はじめに 機械学習を勉強する上で、重要なことはいくつもあると思います。 その中でも本記事は全体像の部分、機械学習のおおまかな流れに…

オートエンコーダによる時系列データの教師なし異常検知

はじめに 深層学習を用いた異常検知手法では有名なオートエンコーダを使ってプログラミングしたことをまとめます。オートエンコーダによる再構成誤差とLSTMによる予測誤差などとも比較予定です。 追記 LSTMの異常検知記事、書きました 対象データ 今回もこち…

LightGBMを使って気温予測してみた

はじめに 今回の記事では、Kagglerランカー達がこぞって使ってるという「LightGBM」なるものを使ってプログラミングしたことをまとめていきます。 LightGBMとは LightGBMとは決定木アルゴリズムを応用したアルゴリズムです。よくXGBoostと比較されるのを目に…

Pythonのクラス内におけるメソッドについてまとめてみた

目的 備忘録用です。普段Pythonでプログラミングするとき、めんどくさいのであまりクラスを使ってプログラミングしないことが多いです(jupyter notebookのベタ書き脳死コーディングのせい)。 ですが、最近はちょっとこのままでは良くないなと、あまり使う…

機械学習を使わずに時系列データの異常検知

はじめに 研究で時系列データの異常検知に関する研究を行っています。そのため、機械学習による異常検知のアルゴリズムについて普段から文献調査などしているわけですが、機械学習を使わずとも異常検知できるという記事を見つけました。 https://cpp-learnin…

Telloのセンサデータ収集に関しての捕捉

前回 前回の記事でTelloのセンサデータ収集方法について書きました。今回はその記事の補足となります。良かったら、まず先にそちらを読んでいただければなと思います。 今回の記事内容 今回の記事は前回の内容データ収集部分に関する捕捉です。具体的にはtel…

Telloのセンサデータ収集

はじめに Ryze Telloでプログラミングしたときのセンサデータ収集方法についてまとめます。言語はPythonでやりました。SDKとして、DJIの公式SDK「Tello-Python」を使っています。 https://github.com/dji-sdk/Tello-Python 本ブログでは、上記のサンプルコー…