« またUSBメモリ紛失の話が…禁止になったときのためにQRコードで最大の文字数が入るversion 40を試してみる。PythonのpyqrcodeでQRコード作って、iPhoneのアプリで読んでみる。Fakerでダミーデータ(名前、住所、電話番号など)を作って。 | トップページ | 河童ラーメン本舗で黒河童ラーメン+からあげセットをいただく。やはりここのラーメンが一番好き。替え玉1つ無料でキムチも食べ放題。 »

2024年3月28日 (木)

クレジット会社要請の規制ワードの置き換えを素数にしたら?という話を見たが、単語をword2vecとかでベクトル化して、コサイン類似度を適度に離した単語にすればどう?とか思ってPythonでMetaのfastTextとgensimを使って類似性を見てみた。ひよことロリポップが92番目の類似度。

この話を見た。

 

なんかよくわからんことになってるな。

これで私も違法素数を思い出したが、それとは別に言葉のいいかえならこの機械学習全盛の時代なら機械学習でやらせればいいのではと思ったり。

使うのはMeta(Facebook)のFastTextにしよう。

日本語のデータはここからダウンロードできる。

https://fasttext.cc/docs/en/crawl-vectors.html

使い方はこちらを参考に。

https://qiita.com/Amby/items/b982413c05cb50bb5e0a

では”ひよこ”のコサイン類似度の上位2000位まで見てみよう。プログラムはこんな感じで。

Fasttext1

で92位にロリポップが現れた!なるほど割と近い?

Fasttext2_20240327204101

ロリは1910位。

Fasttext3

コサイン類似度が0.3程度で選べばいいのでは。

しかし…2000位近くに”アンパンマンパンクッキングバカ”とか出てくる…なんだこりゃ。

« またUSBメモリ紛失の話が…禁止になったときのためにQRコードで最大の文字数が入るversion 40を試してみる。PythonのpyqrcodeでQRコード作って、iPhoneのアプリで読んでみる。Fakerでダミーデータ(名前、住所、電話番号など)を作って。 | トップページ | 河童ラーメン本舗で黒河童ラーメン+からあげセットをいただく。やはりここのラーメンが一番好き。替え玉1つ無料でキムチも食べ放題。 »

パソコン・インターネット」カテゴリの記事

学問・資格」カテゴリの記事

日記・コラム・つぶやき」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

« またUSBメモリ紛失の話が…禁止になったときのためにQRコードで最大の文字数が入るversion 40を試してみる。PythonのpyqrcodeでQRコード作って、iPhoneのアプリで読んでみる。Fakerでダミーデータ(名前、住所、電話番号など)を作って。 | トップページ | 河童ラーメン本舗で黒河童ラーメン+からあげセットをいただく。やはりここのラーメンが一番好き。替え玉1つ無料でキムチも食べ放題。 »

最近の記事

最近のコメント

2024年12月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        
フォト
無料ブログはココログ