投資家Z

2023年4月から社会人1年目。2020年10月から投資スタート。2022年3月よりネオモバで日本株投資スタート。現在は日本の成長銘柄に集中投資してます。株について語り合いましょう

【参考例】データサイエンス特論のレポートを大公開します!


自然言語処理において文章分類は一つの重要なタスクである。

その際に,各文章に出てくる形態素の数の分布をとることでその文章の特徴として調べる方法があるが,Aさんは,ネット上のいくつかのブログ記事(少なくとも300文字程度はある文章)を分類しようと考え,各ブログ記事のテキストデータをそのままMeCabを用いて形態素に分割し,それぞれのブログ記事において出現回数が最も多かった上位3つの形態素をそれぞれのブログ記事の特徴とした。

参考までにMeCabを用いた形態素の分割結果を下記に示す。(/で分割されている)
これ/は/、/形態/素/に/MeCab/を/用い/て/分け/た/例/です/。

【問題】以下の問に対して,あなたの考えを述べよ.

この場合Aさんのやり方ではブログ記事の特徴として,明らかにふさわしくない特徴を得ることになってしまい,場合によっては,各ブログ記事の特徴が同じようなデータになってしまう恐れがある。それはなぜか??また,この問題を無くすにはどうすればよいか,(完璧に無くさずとも低減させるでもよい)あなたの考えを述べよ。
ただし,次の5つのキーワードのうち、少なくとも1つを使うこと。
「助詞」「記号」「tf-idf」「ストップワード」「データクレンジング」

Aさんのやり方だと「助詞」が上位を独占してしまうと思いました。MeCabの分割結果を見ると文節ではなく単語ごとに区切られているので形態素の中に助詞が入ってしまいます。こうなると、ブログ記事において出現回数が最も多かった上位3つの形態素をブログ記事の特徴にすると、出現回数が多いと予測される助詞ばかりが上位を埋め尽くし、正確なブログ記事の特徴を測れないのではと考えた。そのため、改善策をいくつか考えました。1つ目はあらかじめ助詞を排除しておくというやり方です。順位付けする際に文章中に頻繁に出現する助詞をピックアップして、フィルター機能で事前に除外しておけば、正確な答えを得ることができるのではないかと考えた。2つ目は順位付け対象の文字数制限です。例えば、2文字以下は特徴からあらかじめ除外しておくというような感じです。一般的に文字数が少ない言葉は情報が少ないので、特徴とは言えないものが多くなると考えています。