(O+P)ut

アウトプット



(O+P)ut

エンジニアのアウトプット

【Linux】はてなブログの記事タイトルを一気に取得するスクリプト

スポンサーリンク

はじめに

本記事でははてなブログを想定して記載しています。

過去記事のタイトルを一気に確認したい際に利用でき、自分ではなくても他人のサイトのタイトル名を取得できるので命名方法の参考にもできます。

今回はWindows環境ですのでCygwinにて実施しましたが、インターネットに接続しているUNIX環境でも利用できます。

はてなブログの記事タイトル一覧を取得する

はてなブログ特有の構造

はてなブログはブログのトップページのURLに「/archive」を付与すると記事一覧ページになっています。
私のブログの場合は以下が記事一覧です。
https://www.mtioutput.com/archive

ほかのブログでも、同様のURLがあれば適宜それに置き換えてください。

HTMLの取得/切り出し

こちらの記事一覧のHTMLをwgetで取得して欲しい箇所を切り出します。

各記事の箇所が

<a class="entry-title-link" href="記事のURL">記事のタイトル</a>

という構造ですので、「entry-title-link」という箇所でひっかけて<>を区切り文字として3列目を表示します。

実際の結果

$ wget -O - 'https://www.mtioutput.com/archive' 2> /dev/null | grep entry-title-link | awk  -F'[<>]' '{print $3}'
【ブロックチェーン】なぜ送金手数料を高めに設定するのか
インフラエンジニアにおすすめのWebサイト5選
....

とずらずら表示されます。

採用しているテンプレートデザイン等に依存すると思いますが、私の場合は30記事が取得できました。
30記事以降を表示したい場合は/archiveの後ろに「?page=2」「?page=3」といったようにページの指定を追加すれば取得可能です。

終わりに

例えば以下の文字列の画像は本ブログのタイトル一覧から英数字だけを抜き出して可視化してみました。
f:id:mtiit:20181210163051p:plain

記事のタイトルの調査をしたい方はぜひ参考にしてみてください。

以上、はてなブログのタイトル取得スクリプトでした。