2006-11-06
■のだめカンタービレ
ピアノを弾かなきゃ
のモノローグ(珍しい!)があったってことは、来週に Rhapsody in Blue も Rachmaninoff の2番もやっちゃうんだ。
楽しみ〜。
今聴いている Rhapsody in Blue は「2台のピアノと管弦楽のための」編曲デス。
2006-11-05
■文書の類似度とデータ圧縮と符号化と
単純で全く実用的ではないが、問題をうまく捉えるのに有効な答え、てのもあるなぁ、と思ったので記しておく。
■ 2 つの文(日本語のもの)の間の類似度を算出するアルゴリズムを紹介してください。
http://q.hatena.ne.jp/1162484151
2つの文書を単純に結合して適当なロスレス圧縮なアルゴリズムにかける。より圧縮できた場合は文書の類似度が高い。
ロスレス圧縮の基礎である符号化。
よりたくさん出てくるパターンにより短いデータ長の符号を与えると、全体のデータ長は小さくなる。といのが基本的な考え方。
2つの文書を結合して圧縮した時に符号化によってデータ長を減少できるということは、前後の2つの文書に共通のパターンが多い、ということでもある。
実際にはこの手法は単純すぎて、ある1つの文書がまずあって、それ以外に複数の文書がある場合に先の文書により近いのがどれか? という様なケースでないと使えない。
そうでないケース、例えば4つの文書があってその中でもっとも類似しているペアを捜す、なんていうケースではうまくいかないだろうな。
一応追記
を見つけた。
ところで、あらかじめ文書集合とそれらに対する適切な分類があるならばともかく、2つの文の類似度というのはそれほど明らかな(例えば10人が10人とも同じ判断をするような)ものではないだろう。
(1)私は歯科医で、職場に平日の午後通っています。
(2)私は建築家で、職場に平日の午後通っています。
(3)私は平日の午後、職場から歯科医に通っています。
さて、(2)と(3)のどちらがより(1)に近い?
(1)私は言葉の意味を調べるのによくGoogleを使います。
(2)私は言葉の意味を調べるのによく辞書を使います。
(3)gooの辞書は言葉の意味を調べるのに便利です。
(1)と(2)、(2)と(3)、(3)と(1)、どれが一番類似度が高い?
追記 2006/11/8
回答としては#2は妥当だと思う。
エディットグラフを使う方法は、最短距離を類似度とする以外にエディットグラフ上に引かれた斜線の数を数えるというのもありかなぁ、と考えていた。単純な数では文字列の長さ(n*mの大きさ)に依存するので、その辺は正規化する必要はありそう。
他のアイディアとして、
- 最短経路上の斜線の重みを大きくする
- 対角線上の斜線(n≠mだと対角線状の平行四辺形上の斜線か?)の重みを大きくする
- 2本以上つながった斜線の重みを大きくする
などか。
n-gram で切り出してソートした結果から、エディットグラフの最短距離をとる(この場合はエディットグラフの軸にくるのは文字ではなくて、n文字の文字列に変わる)というのもいけるかなぁ? どうだろう。
上に書いた圧縮処理で類似度を測る方法は、短い「文」では難しいだろう。圧縮のちょっと手前、符号の作成までをおこなって符号表から類似度を考えるというのもありか。
短い符号に長いパターンが結びついていれば類似度が高い、と言えるのではないか?
■病気で摘出した臓器を別の患者に移植するのは10年前には行われている
のニュースの件で、
しかしドミノ移植と呼ばれる、移植によって取り出された臓器を別の患者に移植することは行われています。
Log of ROYGB - 病気で摘出した臓器を移植する
という記事を読んだ。不勉強ゆえ知らなかったので、ざっと"ドミノ移植"で検索すると確かに、1990年代なかばには肝臓のドミノ移植の事例が出てきている。
「病気で摘出した臓器を別の患者に移植」というのは普通の人の感覚に照らすと非常にセンセーショナルだが、一概に禁止事項にすればいいというものでもないらしい。
■via はラテン語で「道」
英語だと "way".
2006-11-04
■大人になったからもう勉強しなくていいんだ
とは、自分の子供には言いたくないなぁ。
■続き
大学を卒業して10余年。
いまだ興味があって数学にまつわる話には首をつっこみたがるわけだが、知らないことなんて山ほどある(というか、知っていることは塵ほどもない、か)。
5次以上の方程式には「代数的に解けない」ものがあるということを、今日知った(なんてことを書くと、そんなことも知らかったのかと言われそうだが)。
「方程式の解が代数的に導き出せない」ってえええぇ? てな感じである。
可能無限の話なんかを延々としておきながらそんなことも知らなかったわけで、ちょいと恥ずかしいかもしれない。
でも、楽しい。
ちゃんと理解できるかどうかはまだ判らないけど、でもその先にある「世界」は楽しそうなのだ。
そこにたどりつくまでがどのぐらい苦しいのか、そもそもそこにたどりつけるのかも判らない。
だから、勉強するんだ。
それはとても楽しいことなんだよ、と、子供に言えるようになりたい。
■長いケーブルは8の字に巻こう
あるいは∞の形。
家の近くにTVの中継車が来たことがあって、その後片付けを眺めていた時の話。
中継車から中継の場所までの間を長いケーブルを這わせていたのだけど、その片づけでケーブルを0の形――つまり一方向に巻くんじゃなくて、8の字を何度も書くように巻いていた。
あぁ、なるほどこうやって巻くと"よれ"がなくうまく収まるんだなぁ、と感心した。
■「舞-乙HiME」 ベストコレクション はサントラ未収録BGM集付きだった
ウォーカルコレクションだと認識していたからスルーだったきだけど、アニメDVDのインフォメーションを見たらBGM集のディスク付きということが判明。
即注文。
……満足。ボーナストラックのメドレーも圧巻。
そうそう。書いてなかったけどアニメは全部見た。相も変わらず前半と後半のギャップがすごい。ふと気がつくと本気で見てたりして、あなどれない。
2006-11-03
■メイズプリズンの迷宮回帰
読ー了ー。
最後の方は全然意外性がなくて――というのはつまりほぼ予想通りだったということで、にも関わらず面白かったな、と思えた。
そのぐらいしか書くことがないなー。
でもけなす気は一切無い。
実は上遠野浩平のシリーズの中では一番好きかもしれない。カミさんもそう言っていたし。
2006-11-02
■祝! ビブリオテーク・リブ 復刊
さっそく予約注文だー!
で、
復刊ドットコムをチェックしないで俺様価格だった出品者はどうするのかな〜。
追記 (2007/12/15)
見事に下落済み。でも時間が経ったからなのか、復刊の影響なのか判らない。
ついでに。
■@Nifty 上場
上場しても富士通の子会社のまま、ということか。新規発行分と富士通からの売り出しの分を足して全体の1/3弱だなぁ。
参考
p99
「子会社なのに株式上場?」と不思議に思う方もいるかもしれないが、たとえば株式の八十%を親会社が持っていても、残り二十%を株式市場に放出して上場するという場合もあるのだ。

