シグモイド関数をグラフにすると一次関数と似てる
本稿の結論はこのグラフである。スライダーを動かせば、シグモイド関数\( \displaystyle f(x)=\frac{1}{1+e^{(-(ax+b))}} \)と一次関数\( f(x)=ax+b \)が良く似ていることを体感できる。
傾き a |
切片 b | ||
傾き a |
切片 b | ||
①aとbが与えられてxを求めるか、②xが与えられてaとbを求めるかで言うと、前回が②で今回(本問)が①に当たる。①の方がよりカンタンなことが、本問を通じて体感できるはず。
下記例題のようなロジスティック回帰境界問題において、その境界である"0.5"を右辺に持ってきて公式を変形すると、最後に残るのは\(ax+b=0\)。結局、ロジスティック境界問題は、大きく2通りで、①aとbが与えられてxを求めるか、②xが与えられてaとbを求めるかのどちらか。いずれにせよ\(ax+b=0\)を解くだけだから、中学校の数学でOKだ。 |
傾き a |
切片 b |
|
情報エントロピーの本質が知りたくなり、数時間かけて尾立 貴志 (Aurues,Takashi)さんの大作「勝手にしやがれエントロピー」を読んだ。正直理解しきれていないが、直観的にも腹落ちする新しい"情報"との出会いの瞬間がいくつもあり、とてもエキサイティングだった。
コインの裏表\(\frac{1}{2}\)確率とその情報量(情報エントロピー)の関係についての秀逸な問題に出くわした。
【問題】 発生頻度の低い事象が発生したという情報(例えば、湖で伝説の生物ネッシーを発見)の重要度と、高頻度の事象が発生したという情報(例えば、湖でブラックバスを発見)の重要度とでは、直観的には前者が重要だとわかると思う。情報理論の世界でもこの直観に従う。例えば、10本に1本のアタリを含む商店街のクジに当選した情報より、10000本に1本のアタリを含む年末ジャンボのクジに当選した情報の方(つまり発生確率の低い事象が発生したという情報の方)が、より情報の量が多いことになる。具体的には、2回に1回は起こる事象(確率\(\frac{1}{2}\)の事象)が発生したという情報の大きさを1bitの「自己情報量」と定義する。この情報量は足し合わせ可能な量だと考え、2回に1回は起こるような事象Aと、また別の2回に1回は起こるような事象Bが同時に発生するという事象(確率\(\frac{1}{4}\)の事象)の情報量を2bit、同様の事象Aと同様の事象Bとさらに別の2回に1回は起こるような事象Cが同時に発生するという事象(確率\(\frac{1}{8}\)の事象)の情報量を3bit、といった形で考えていく。この関係を数式で表すと以下のようになる。 \[I=\log_2\big(\frac{1}{p(X)}\big)=-\log_2\big(p(X)\big)\] ※.\(I\)は情報量。\(p(X)\)は事象\(X\)の発生する確率。ある祭で毎年評判の的屋があった。そこに行くと店主が、客に向かってこう言っていた。「このゲームはコインを5回投げて表が出た数✕1千円がもらえるゲームだ。3回表が出れば3千円だ。シンプルだろ。但し、賞金を簡単に持っていかれては困るから、コインが少し曲がっていて、表が出る確率は\(\frac{1}{3}\)になってる。ゲーム代は普段なら1,900円だが、1割引きの1,710円にしておくよ。えーい、今日は端数もいらねぇ。1,700円だ!持ってけ泥棒!!」。
さて、貴方はこの勝負に乗るか降りるか…。
表(おもて)がでるという事象に1という数値を、裏がでるという事象に0という数値を対応させ、4枚のコインを同時に投げて裏表どちらが出るかという試行を1200回行ったとして、下の表を作った。この表は確率変数と対応する確率との関係を表すものであるから、確率分布の表現の1つといえる。