こんちゃっす。ひろちょんです。
今回はKaggleのテーブルコンペに参加したときに、始めにやることをまとめていきます。
ただいま初のコンペに参加しておりまして、『軌跡をのこしておきたいな』と思って、書いていく次第です!
また次のテーブルコンペに参加するときに『自分は何をやってたかなぁ』と思い出すための個人的なメモみたいなものです。笑
~目次です~
コンペの説明を読もう!
まず翻訳使いまくっても良いので、【Overview】を読みましょう!笑
ここにはコンペ主催者のコンペ開催の意図や、コンペでスコアを出していくうえで、大切なことが必ず書かれています。
データセットに目を通す
データセットとはコンペで主に使用するデータ達になります。
主にコチラのデータ群がいたり、いなかったりします。
- 訓練データ
- テストデータ
- 訓練データが何を指すか説明するデータ
- テストデータが何を指すか説明するデータ
- 提出する際の見本データ
↑のデータ群の解説がDataページにあるので、見ていきましょう。
データの解説を翻訳する
まず文章を読みつつ、恐らくデータの解説があると思うので、それぞれ何に対応しているのかを把握しましょう。データを英語⇒日本語に翻訳する
データの解説を翻訳しとけば大体把握できるので、まとめておきましょう。
公式のデータ可視化ツールをチラ見
Dataページを進めていくと、Kaggleがデータを可視化してくれている場所があります。ここで軽くデータ群には何が入っているのか見ておくと、よりデータが何を指しているか分かりますね(/・ω・)/
コードを書く前にDiscussionを見よう!
ココにはコンペを始める上で主催者の重要な解説があったりします。コンペを進めていく上で便利なツールを公表している場合もあるので、苦労する前に確認しておきましょう!!
+αでやること
できれば他のDiscussionも見ておきましょう。Discussionの【sort by】の右側でDiscussionのソート方法が選択できるので、【Most Votes】を選択して、気になるDiscussionを見ておきましょう。
ここではコンペ参加者が疑問点を話し合っています。
ソート方法で投票数を選択したので、上位に挙がってきているDiscussionはそれだけ『参加者がその疑問点にぶつかった』という訳ですよね(/・ω・)/
いずれぶち当たる問題について、あらかじめ解決方法を知ることができるので、目を通しておくことをオススメします!
もしそれで解決できた時には、『ありがとう』コメントと▲をクリックしてあげてください。笑
Notebooksを探索する!
僕の場合はコンペ開催と同時に始めていないので、ある程度情報が揃っているケースになります。笑(※about 10days ago)
なので優しい方がチュートリアルを出してくれています!笑 データを分かりやすく可視化してくれているNotebookがあったりするので、くまなく読んでいきます。(為になったNotebookには▲クリック!)
良さげなNotebookをfolk!
Notebooksにはチュートリアルだけではなく、ハイスコアを出すたベースラインとなるような学習モデルをKernelとしてあげてくれている方がいます!!そこで『参考になったよ!』コメントをしつつ、copy&editしちゃいましょう!!
もしとても効果的なKernelならば▲クリックします。
まとめ
今回は『コンペが始まった瞬間にどんな行動をとるべきか』について書きました!実際にデータセットをどう扱っていくかについてはまた違う記事でまとめていきたいと思います!
最後まで読んで頂きありがとうございました。
気づいたこと、記事の感想、この文章おかしい…などなどございましたら、お問い合わせページにてお問い合わせください。
どんどんKaggleについて発信していこうと思っているので、Twitter(@heacet43)フォローとかこのサイト(https://heacet.com)をお気に入りにしてくれると嬉しいなぁ…笑