単語をベクトルで表すことができれば, 二つの単語がどれだけ”同じ”かを取得できたりする.

mecabのインストール

たった3行のコマンドでMacにMeCabをインストールする方法 を参考にしてmecabをインストール

 $ brew install mecab mecab-ipadic

wikiの記事全文をダウンロード

https://dumps.wikimedia.org/jawiki/latest/ から jawiki-latest-pages-articles.xml.bz2をダウンロード

Wikipedia Extractorをインストール

$ git clone https://github.com/attardi/wikiextractor

Wikipedia Extractorを実行して 1つのテキストファイルにまとめる

$ python wikiextractor/WikiExtractor.py -b 500M -o data/ data/jawiki-latest-pages-articles.xml.bz2
$ cat data/AA/wiki_* > data/wiki20191106_latest

テキストを分かち書きにする

$ mecab data/wiki20191106_latest -O wakati -b 5242880 -o data/wiki20191106_latest_wakati

fastTextのインストール

$ cd {インストール先ディレクトリ}
$ git clone https://github.com/facebookresearch/fastText.git
$ cd fastText
$ make

fastTextの実行

$ fastText/fasttext skipgram -input data/wiki20191106_latest_wakati -output model -dim 300 -epoch 10 -minCount 20