もふもふ技術部

IT技術系mofmofメディア

2021-11-01から1ヶ月間の記事一覧

python-extractcontent3を使って本文を抽出してみる

作ってるアプリでWEBの記事から本文抽出したい仕様があった。調べて見るとpython-extractcontent3というライブラリがあってタグ構造を見てルールベースで抽出してるっぽいのですが、そこそこ精度良いらしいので試してみます。 https://github.com/kanjirz50/…