コミュニティ放送局一覧 - Wikipediaを使って
コールサイン一覧をスクレイピングしてみるテスト
JOZZ1AA-FM FMいるか
JOZZ1AB-FM 旭川シティネットワーク
JOZZ1AC-FM エフエムくしろ
JOZZ1AD-FM おびひろ市民ラジオ
JOZZ1AE-FM エフエムおびひろ
(略)
JOZZ0CL-FM あいらFM
JOZZ0CM-FM 天草ケーブルネットワーク
JOZZ0CN-FM FMしまじり
JOZZ0CO-FM 南笑事
JOZZ0CP-FM つなぐほーむ
こういうのを作成します
curl -s 'https://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%9F%E3%83%A5%E3%83%8B%E3%83%86%E3%82%A3%E6%94%BE%E9%80%81%E5%B1%80%E4%B8%80%E8%A6%A7' | nkf -wLux --numchar-input | sed 's;<br />;_BR_;g' | grep -oE '<[^>]+>[^<]+<[^>]+>' | grep -vE '\[[0-9]+\]' | grep -B1 JOZZ | sed 's/<[^>]*>//g' | sed -n '1~3h;2~3{x;H;x;s/\n/,/;p}' | column -ts,
# コミュニティ放送局一覧 - Wikipedia
curl -s 'https://ja.wikipedia.org/wiki/%E3%82%B3%E3%83%9F%E3%83%A5%E3%83%8B%E3%83%86%E3%82%A3%E6%94%BE%E9%80%81%E5%B1%80%E4%B8%80%E8%A6%A7' | \
# 数値参照の変換(と、念の為のUTF-8変換)
nkf --numchar-input -wLux | \
# 念の為 <br /> タグを退避
sed 's;<br />;_BR_;g' | \
# <タグ>値</タグ> を抽出
grep -oE '<[^>]+>[^<]+<[^>]+>' | \
# 脚注を除外
grep -vE '\[[0-9]+\]' | \
# コールサインの行と、その1つ前の行を抽出
grep -B1 JOZZ | \
# タグ外し
sed 's/<[^>]*>//g' | \
# 1行目(放送局名)と2行目(コールサイン)を入れ替えてカンマ区切りで結合
sed -n '1~3h;2~3{x;H;x;s/\n/,/;p}' | \
# 整形
column -ts,