東上線のつぶやき情報についてですが、これはツイッターAPIより取得しています。 ですがこれ、東上線をキーワードにしたbotや広告や宣伝目的のツイートが混在しているデータなんです。 つまり、関係のない情報がてんこ盛りなんです。
ほかの東上線つぶやきまとめを見てもそうなのですが、とにかく遅延や運行情報に関係のない情報に埋まってしまいがちです。 特に不動産系のBOTが多く、地域名や路線情報を宣伝するため、これを機械的にすべて分類することはなかなか難しいのが現状です。
そこで、このサイト「東武東上線のtwitter速報」では手動による目視チェックにより、広告目的のツイートをひとつずつ除外していくことにしました。 これは、そういったbotや営業ユーザーを非表示にすることで、より東上線の現状運行に関して純度高くする試みです。
というのが1年前です。つまり手動チェックによる運用をして、1年が立ちました。(2014/12/17 現在)
結果、まあまあ、ツイッターユーザーによる生の声のみを取り出せている結果になってきていると思います。 非表示ユーザー数も1000を超えている状況です。それだけ単純検索では、無関係の情報が混在してしまうものなのです。 結論としては、ここは純度の高い東上線に関する「つぶやき」のみを残せる結果に引き続き、向かっていきます。 実際に事故時に遅延や運行状況が自分に役立つためですが。