駿河台経済新聞

神田駿河台から発信する経済・ビジネス・社会情報

卒論紹介『個人投資家のツイートデータを利用したセンチメント分析』

 飯塚です。このエントリーでは私が卒業論文で執筆した個人投資家のツイートデータを利用したセンチメント分析 ― 個人投資家の感情変化と日経平均株価日次データの関係に関する考察」を一部噛み砕いて紹介します。

——————————————————————

 

  1. はじめに

世の中の人々の抱えている考えや感情の分析といったものは、これまで取得することが非常に困難だった。理由は

・大量のデータを取り扱える分析手法が発達していなかった点

・分析元となるデータを大量に取得することが困難であった点

の大きく二点が挙げられる。

 前者の分析手法に関しては、近年大量のテキストデータを解析できるようになり、また、言葉そのものが持つ感情のポジティブ度合い、ネガティブ度合いを定量化することができるようにもなった。中でも、石島他(2015)、「日次データを用いた市場センチメント・インデックスの構築と株価説明力の分析」(http://sigfin.org/?plugin=attach&refer=SIG-FIN-011-06&openfile=SIG-FIN-011-06.pdf)では、日本経済新聞の記事に含まれるテキストデータをテキストマイニングし、市場センチメント・インデックス(記事テキストに含まれる感情や雰囲気)が、三日後の株価収益率を説明・予測しうることを発見した。

 これらの成果を参考に、本論文では、過去研究では触れられていない個人投資家自身の発信するテキストデータを大量に取得し、それらをテキストマイニングして感情の起伏を探った。また、その起伏と日経平均株価の日次データとを比較し、関係性を考察した。

 

  1. 分析対象・分析手法

 

分析対象となるデータは下記である。

  • データ収集元:Twitter (https://twitter.com/)
  • 対象ユーザー:個人投資家らしきTwitterアカウントのうち「フォロワー数5000人以上」「目視で確実に個人投資を行っていると確認できるアカウント」
  • 対象言語:日本語ツイートのみ
  • 対象期間:日経平均株価日次データとの比較時=2015年8月4日〜2015年11月30日

        曜日データとの比較時=2015年8月2日〜2015年11月30日

  • リツイート:含む
  • @ツイート:含む
  • 取得ツイート数:41,600ツイート(1アカウントあたりの取得限界数3200ツイート×13アカウント)

 

続いて実際の分析であるが、

  • テキストマイニングによりテキストデータに含まれる単語の出現頻度を算出
  • 各単語の感情数値をセンチメント辞書に基づきスコアリング
  • データセットの作成

という順序で実施した。各プロセスで使用したソフトウェア、辞書などは下記である。

Tweet取得:Twimemachine(http://www.twimemachine.com)

テキストマイニング(分かち書き):Tiny Text Miner Windows版(http://mtmr.jp/ttm/)

形態素解析エンジン:mecab-0.98 (http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html)

・センチメント辞書:「単語感情極性対応表」 (http://www.lr.pi.titech.ac.jp/~takamura/pndic_ja.html)

 

  1. データセット

日経平均株価日次データ比較時のデータセット

データカテゴリ

データ名

算出式

日経平均株価

日経平均株価(終値)

日経平均株価

日経平均株価(始値)

日経平均株価

日経平均株価(高値)

日経平均株価

日経平均株価(安値)

日経平均株価

始値終値の差

(翌日始値) – (前日終値)

日経平均株価

高値と安値の差

(高値) – (同日安値)

投資家感情

投資家感情(絶対値)

投資家感情

投資家感情(相対値)

(感情数値) − (全感情データの平均値)

投資家感情

投資家感情(前日差)

(翌日感情数値) – (前日感情数値)

 

※サンプルツイート対象期間:2015/8/4〜2015/11/30

 

曜日ダミーデータ比較時のデータセット

データカテゴリ

データ名

算出方法

投資家感情

投資家感情(絶対値)

投資家感情

投資家感情(相対値)

投資家感情

投資家感情(前日差)

(翌日感情数値) – (前日感情数値)

曜日

月曜日ダミー変数

曜日

火曜日ダミー変数

曜日

水曜日ダミー変数

曜日

木曜日ダミー変数

曜日

金曜日ダミー変数

曜日

土曜日ダミー変数

 

※サンプルツイート対象期間:2015/8/2〜2015/11/30

 

  1. 重回帰分析の結果概要

本論文においては、下記の四種類の関係を探った。

  1. 投資家感情(絶対値)に対する日経平均株価の値動きの影響
  2. 投資家感情(絶対値)に対する前日の日経平均株価の影響
  3. 投資家感情(前日差)に対する曜日ダミー変数の影響
  4. 翌日始値と前日終値の差額に対する個人投資家の感情の影響

 

f:id:SurugaD:20160307103436p:plain

  1. 投資家感情(絶対値)に対する日経平均株価の値動きの影響

10%有意水準において、株価の高値と安値の差は、個人投資家の感情へマイナスに働いていると言える。これは相場の変動に振り回され、不安や恐怖の感情を個人投資家たちが抱いているためであると考えられる。

 

 

f:id:SurugaD:20160307103527p:plain

  2.投資家感情(絶対値)に対する前日の日経平均株価の影響

10%有意水準において、前日株価の終値は、翌日の個人投資家感情へプラスに働いている。これは前日の終値個人投資家たちがチェックしており、それが上がり傾向であれば当然翌日の感情がポジティブに変わるためであると考えられる。

 

 

f:id:SurugaD:20160307103640p:plain

 3.投資家感情(前日差)に対する曜日ダミー変数の影響

1%有意水準において、土曜日であることは個人投資家の感情の前日との差にプラスへ働いていると言える。仮説であるが、土曜日になると市場が閉じており、不安な感情を抱かなくて済むためであると考えることができる。

これまで日経平均株価個人投資家たちの感情に与える影響を分析してきたが、逆に個人投資家たちの感情の総和が日経平均株価に影響を与える可能性についても検証した。

 

f:id:SurugaD:20160307103831p:plain

 4.翌日始値と前日終値の差額に対する個人投資家の感情の影響

投資家の感情数値の前日差は、5%有意水準で、翌日始値と前日終値の差額へプラスに働いている。つまり、投資家の感情が前日から翌日にかけてプラスに推移すれば、翌日始値が前日終値より大きくなるということであり、その逆も然りである。これは個人投資家たちの感情の総和が日経平均株価へ影響を与えうることを示しているが、見せかけの回帰である可能性もあり、個人投資家の感情の動きが確実に先行して影響を与えていると断言するには材料が不足しているとも言える。

——————————————————————

 

以上です。この結論をより強固なものにするには、取得するツイートの対象アカウントをより広くし、ツイートのサンプルを増やすことや、ツイートの対象期間を広げるということが考えられます。これを本論文の課題として、論文の紹介を終わります。

 

  1. 参考

  • 日次データを用いた市場センチメント・インデックスの構築 と株価説明力の分析

石島博、數見拓朗、前田章

(http://sigfin.org/?plugin=attach&refer=SIG-FIN-011-06&openfile=SIG-FIN-011-06.pdf)

 

 

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

社会調査のための計量テキスト分析―内容分析の継承と発展を目指して

 

 

 

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)