タグ:Google ( 15 ) タグの人気記事
Google風邪前線予報メキシコ版
おはようございます。げふげふ。すわ、インフル!? 失礼しました。

以前、Google風邪前線予報のことを書いたのですが、メキシコ版ができたそうです。あ、インフルエンザと風邪は違うことは分っているのですが、「前線」には「インフルエンザ」よりも「風邪」があうよね、ってことでそのままにしています。いやもともとGoogleも「前線」って言ってませんでしたね。

Experimental Flu Trends for Mexico
お知らせ The Official Google Blog: Experimental Flu Trends for Mexico
a0022216_7385339.gif

流行しだしてから出されてもな、というのはあるのですが、過去にさかのぼってみるのも今後のために役に立つと思います。

しかしそれほどホットになっていないんですね。毎年と同様1月ごろにあるピークに達していません。今はテレビなどでがんがん流されているから検索する必要もないのでしょうけど。メキシコ政府の発表前の4月の中旬から伸びだしているので、その点は先取りと言えるでしょうが、その時点で気付くのは難しいかと思います。
[PR]
by yoshihiroueda | 2009-04-30 07:28 | 科学・技術
ウソだろ!
中国だけなんて。

Google、中国で無料の音楽ダウンロードサービスを始動

これを読むと、中国で違法ダウンロードが横行しているから対抗上始める、と読める。
違法ダウンロードが無視できるくらいの国だったら要らないでしょ、ってことだよね。

なんかねえ、複雑な心境ですよ。

ところで、この「Google中国法人の責任者リー・カイフ氏」って、音声認識の研究者のカイフー・リーなんだね。アップルからマイクロソフト、グーグルと移ってたんだ。
[PR]
by yoshihiroueda | 2009-04-01 20:46 | ビジネス
Yahoo!日本語係り受け解析を使ってみた
こんばんは。私インターネットのヤホーというサイトで調べていたら、グーグルといういろいろなサービスを提供しているサイトを見つけてしまいました。

今日は休みだったので、こんなのを作ってみました (解析部分は昨年末からできていたのですがずっとほっておいていました)。

Google App Engineから、
Yahoo!の日本語係り受け解析を呼び出し、その係り受け関係を
Google Visualization APIのひとつ組織図の形式で表示します。

入り口はここ: Yahoo Analysis Test

日本語の文を下記にテキストエリアに入れて、"Analyze"ボタンを押します。
a0022216_23453561.gif

下記のようなツリー形式で表示されます。
a0022216_2349338.gif

係り側は出現順に左から右に配置できれば良かったのですが、まだ詳しい使い方を理解していないので、ご勘弁を。

表示に関しては、Ortho というライブラリがもっと良さそうなのですが、ちょっとGoogleのよりもハードルが高そうなのでこれはあとの課題にしたいと思います。

それからほとんどテストしていませんので、へんなメッセージが一面に出たら何を入れてそうなったか教えて下さい。

参考:
CodeZine (2008/08/21) Yahoo!、「日本語係り受け解析Webサービス」のAPIを公開
たつをの ChangeLog (2008/08/21) ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」
[PR]
by yoshihiroueda | 2009-01-12 23:56 | 科学・技術
MapReduceってこういうことか
こんにちは。PigeonRank 作成作業員です(ウソ)。

Googleでは、並列計算の枠組みMapReduceを使って、ページのインデックスを作ったり、ページランクを計算している。

ページのインデックスを作るというのは、
・Webページ群の各ページにある単語 (実際はNgram) の並びを抜き出して、
・単語から、その単語をもつページ群を割り出す (これを保持する)
ということ。

また、ページランクを計算する時には逆リンクを求める必要がある。あるページからリンクがはってあるページ群の逆で、あるページへのリンクをもつページの集合。これはWeb全体を見なければ分らない。これを被参照ページごとに行うのではなく、まとめて行う。
・Webページ群の各ページにあるリンク先を抜き出して、
・リンク先ページから、そのページへのリンクをもつページを全て抜きだす。

これらの共通点は、行列の計算をそれぞれの軸で行っているということ。すなわち、
インデックス: ページ軸 → 単語ベクトル、単語軸 → ページベクトル
逆リンク: リンクページ軸 → 被リンクページベクトル、被リンクページ → リンクページベクトル
[補足] 実際はベクトルではなくハッシュ表なのだが、ここではベクトルで説明する。

この最初のステップをMapで、次のステップをReduceで並列計算する。その間にMapの計算結果 (ベクトルのベクトル = 行列) をスライスしてReduce用の計算機に分配するShuffleのフェーズが入る。

図解にするとこんな感じ。
a0022216_12575189.gif

アニメーションをつけたPowerPointプレゼンテーションを置きました。→ MapReduce.pps

次に、インデックス抽出の事例をここにあてはめてみる。
ここでは単純化のため、形態素解析で分割された文字列を単語として扱うが、Googleでは任意の文字列で検索できるのでNgramを用いていると考えられる。もちろん英単語をカタカナで検索できたりするということは単語がわかっているということなので、形態素解析も併用していると考えられる。また「バイオリン」でも「ヴァイオリン」でも検索できるので表記違いもあわせてインデックス化しているかもしれない (検索時に展開する方法もあるのでGoogleが実際にどちらを採用しているかは分らない)。
a0022216_15462424.gif

1) Map: Webページ群をプロセッサの数に応じて割り当てる。WebページURLとそのコンテンツ (テキスト) を入力として、単語の並びを抽出する。ここでは存在することを●で示しているが、個数を記録しておけば、その単語を多く含むページを優先させる処理が可能になる。

2) Shuffle: Mapの結果をベクトルの要素ごとに決めたプロセッサに分配する。ここではベクトルと書いたが、ある単語を処理するプロセッサが特定できれば良いので、実際はハッシュを用いている。

3) Reduce: 各単語ごとの処理を行う。ここではその単語を含むページ(URL)のリストを作成する。Mapの段階で単語の個数を記録していた場合は、URLと単語個数の対のリストを返す。あわせてURLの個数を計算することで、その単語がどれだけ多くの文書で使われる一般性の高い用語なのかの尺度DF (Document Frequency) を得ることができる。

アルゴリズムによってはMapとReduceの組み合わせではなく、Mapの結果は既に入力として持っていてReduce処理だけ必要というものもでてくるだろう。またアルゴリズムによっては1段のMapReuceでは足りず、複数回適用する必要があるものも出ると思われる。

以上、誤解等ご指摘いただければ幸いです。

参考文献
Radium Software Development: MapReduce
  -- 「フィルター」と「アグリゲーター」の2段階から構成されると考える
原論文(すみません読んでません) MapReduce: Simplified Data Processing on Large Clusters
[PR]
by yoshihiroueda | 2009-01-02 12:58 | 科学・技術
今度はGoogle App Engineを...
... 使ってみた。話題のクラウド・コンピューティング、ってクラウドの無駄遣いですけど。

Exbloggers' Recommendations

お互いに読んで欲しい記事を推薦し合う、昔のエキブロ新聞みたいなものをイメージしてみました。

まだ満足のいくものではないですけど、もっと改良してから... なんて考えててもいつになるか分らないので、一応動くようになったところで公開しちゃいましょう。

改良すべきところをあげておきます。

・記事へのリンクの部分はURLがそのまま出ていますが、本当は記事のタイトルをいれるつもりでした。HTMLのパージングが上手くいっていなくて、抽出してきたものになにか変な文字コードが入っているようです。

・間違えた場合に修正する方法をまだ作っていません。これはすぐにいるだろうな。

・今最新の10件だけしか表示できないのですが、ページ切り替えも必要になるでしょう。

・ログインを別途行う必要があるのですが、Google Friend Connectのサインインと連動させるようにしたい。

・デザインがしょぼい。これはセンスの問題もあるので、時間をかけても良くなるものじゃないですね。
[PR]
by yoshihiroueda | 2008-12-14 14:57 | 科学・技術
Google Friend Connectってどうかな?
おはようございます。グ〜!って流行みたいですね。

先日こんなニュースがあったので、
SNS機能をサイトに追加する「Google Friend Connect」、いよいよ利用可能に (RBB Today 2008年12月5日)

作ってみたよ!
Exblog Friends

GoogleMailアカウントを持っている人はJoinしてみてね。
追記: ほんとうはOpenIDなのでYahooIDなどでもいいはずなのだけど、登録する方法がないようですね。自分のIDは他所で使って良いけど他のIDはGoogle様の領域を侵すことは許さん、って感じでしょうか。
[PR]
by yoshihiroueda | 2008-12-09 08:09 | ネット
Google風邪前線予報
こんばんは。急に寒くなりましたね。昨日はセーターを今季初めて着ました。

Google 急上昇ワードのトップに、"flu tracker"ってあった。

これね。

Google.org Flu Trends (Google.orgってのもあるんだね)

検索語の動向から、インフルエンザの流行が分るそうだ。通常の予測よりも2週間早く流行を予測できるらしい。
詳しい説明はここ → How does this work?

きっと、みんな「発熱」とか「悪寒」とか「咳」とか「タマゴ酒」とか「バナナ」とか検索するんだろうね (英語で)。

ん、まてよ。こうやってみんなが"flu tracker"のことをブログに書いて、関連語を記事中に記載して、ついでに検索で調べてみるか... なんてやってみたりすると、今年の予想に狂いが出たりするのではなかろうか。
[PR]
by yoshihiroueda | 2008-11-13 01:45 | 科学・技術
AppleのWebKitを使っているのに ...
... なんでMac版はないんだよ!

Google Japan Blog 「ブラウザでの新たな試み」

Mac版希望の方は → お知らせに登録
[PR]
by yoshihiroueda | 2008-09-03 06:54 | 科学・技術
ゆるいのも日本の文化だろ
おはようございます。伊能忠敬です(ウソ)。

【絵文録ことのは】松永英明さんの「グーグル・ストリートビューに儀礼的無関心を求めるのは筋違い」に対して、私は
エクステリアの「あるべき論」はわかるが、日本人の少なからずの人が「エクステリア」=「金持ちの道楽」と思っている。また、Webの世界の「あるべき論」を適用するのも間違い。
というコメントともにブックマークした。これに対して松永さんは次の記事「グーグル・ストリートビューは、やっぱり気持ち悪くないと思う」で、
ここで使った「エクステリア」という用語は、単に建築物の「内と外とさらに外」みたいな区別を厳密化させるために用いたものであって、たとえばアパートのベランダなども含めることは本文で書いたとおり。
つまり、外から見られる部分について、実際に(日本人であろうと何国人であろうと)「私的領域に属しながら、外から見られる」ことを(おぼろげながら)自覚しているはずだ、という話。
と書かれている。それは分って上で書いているのだけれど、ブクマコメントでは十分な説明になっておらず誤解を招く。ここではもうすこしまとめてみたい。

概要:良し悪しはともかくとして、私的領域と公共領域の境界をふくめて、ゆるいことは日本の文化だろう。グローバルスタンダードに合わせなければならないのだろうか。

ここで「文化」というのは、「芸術」とか、保護すべき「伝統」ではなくて、「共通の価値観」という意味。日本人の好みが変わって行けば変わって行くもの。多くの人が電車の中でケータイ通話が気にならなくなれば、車内放送での呼びかけもポスターもなくなるよ。

実は私も最初はストリートビューは単純に面白いと思った。今は大都市しかないし、大都市の中で知っているところは繁華街くらいなのでそういうところしか見ていなかったから。

それが、松永さんの記事でもとりあげられたhiguchi.com樋口さんの「Google の中の人への手紙 [日本のストリートビューが気持ち悪いと思うワケ]」という記事を読んで、なるほど単純に面白がってはいられない問題だなと思った。この樋口さんの記事は、単なる違和感ですませるところを、文化的背景から説明しており、良い記事だと思う。

松永さんの記事はそれを理解した上で否定している。「見て見ぬふりをしてほしい」というのに対して、「実際にもともと見えていたものなのに、それに無頓着過ぎたのだ」というのでは妥協点はないだろうな。

まず、「見える (see) 」と「見る (look at)」では違うと言うことをあげておこう。Googleストリートビューは「見える 」と「見る」に変える装置だ。

ここでやっと「エクステリア」の説明に入れる。もう一度松永さんの認識をあげる。
単に建築物の「内と外とさらに外」みたいな区別を厳密化させるために用いたものであって、たとえばアパートのベランダなども含める。
多くの人はこの意味での「エクステリア」は理解できるだろうし、「エクステリア」という言葉は使わなくても外から見られている空間であることは認識しているはずだ。そこを私は、
エクステリアの「あるべき論」はわかる
と書いた。

その上で私は、
日本人の少なからずの人が「エクステリア」=「金持ちの道楽」と思っている。
と書いた。見えるのは分るけど、それを写真に撮られて全世界に公開して恥ずかしくないというレベルまで持って行くだけの余裕は金銭的にも時間的にもない、勘弁してよ、ってことだ。

「恥ずかしくない」というところがポイントで、高級住宅街にぽつんと自分の家があったら恥ずかしいけど、周りもみんなそんな家だし、おっさんがステテコのまま歩き回っているようなところなんだから、「見て見ぬふりをしてほしい」ってことだ。

そんな「ゆるさ」を日本人はもっていると思う。それを一気にグローバルスタンダードに合わせることを強いるのがGoogleストリートビューだろう。

「Webの世界の「あるべき論」を適用するのも間違い」も同じ。これは無断リンクをいやがる人達と同一視したものだが、Webでの公開はもともとフラットで全世界に公開されていたものであって、自宅をそこに来る人に見られているのとは訳が違う。

「金銭的に余裕がない」と書いたが、家を持つ金があるんだったらそのくらいの余裕はあるだろ、エクステリアのメンテナンスまで配慮することを含めて家を持つとことだろ、という指摘はあるかもしれない。でもね、やっと買った家だってGoogleカー (高木浩光さんは「Googleカー」と書いていたw)から下手したら窓の中まで見えるくらいの敷地に建てていて、アメリカの住宅地や農村とは違う。借家だってアパートだって同じ。洗濯物をベランダに干さざるを得ない。それにやっぱり日本人はいくら貯金があっても余裕がないんですよ。まだ読んでいないけど、吉村 葉子 「お金がなくても平気なフランス人 お金があっても不安な日本人」に書いてある (はず)。

これからGoogleストリートビューはアジアの他の国やアフリカにも進出してくるんだろ。もちろん価値観も違うので抵抗もかえってすくないということはあり得るけど、日本以上に貧しいところが多い。アンカテessaさんは、「グーグルにNO!と言えるニッポン」
このエントリは、相手が違う文化、違う常識を持っていることを前提としていて、そういう相手に理解してもらえるように説明している所が素晴しいと思ったからです。
こういう形で異議をとなえることは、日本の重要な責任ではないかと私は考えています。
と書かれている。

Googleには全世界で同じサービスを提供するという方針とともに、それぞれの文化を尊重する姿勢はあると思う。また、"evil"にならないことを宣言しているし (これをGoogleは"evil"でない = Googleがやっていることは正しいと思っている人も多そうで心配だけど)。今回はそれに気づかなかっただけだと思うので、何らかの形で改善することを望みます。少なくともカメラの高さを人の目の高さにすることくらいはできるはず。
[PR]
by yoshihiroueda | 2008-08-16 05:18 | 科学・技術
グーグルで人間はバカになる!?
こんばんは。これでいいのだ。

COURRiER Japonの9月号に、「グーグルで人間はバカになる!?」という記事が出ていた。
かつては本に没頭したり、長い記事に読みふけったりすることは、日常の一部だった。展開されている議論にもすんなりと入っていけたし、長い文章を何時間も夢中になって目で追い続けたものだ。だが今では2〜3ページも読んだところで意識が移ろい始めることはしょっちゅう。落ち着きがなくなり、筋を見失い、気が散ってあたりを見回し始める。かつては自然に読書の世界に入っていけたのに、今では読み続けること自体がひどく難儀だ。
まあ、表題で「グーグル」を出しているのは実は釣りだな。筆者自身もインターネットを使うようになってからということは認めている。

ただ、グーグルが出てきたこと、そしてインターネットの情報量が増えてグーグルが必要になるくらいになってきたことは無縁ではないだろう。昔はYahoo!が整理してくれている情報で十分だった、というより、満足していたと言った方がいいか。

それ以外の要因もある。2ちゃんねると、はてブと、そしてブログもその原因だと思う。興味の対象が拡散しちゃったんですね。もちろんそれはいい面もある。というよりも、マスメディアに乗ってやってくる情報は、偏っていることが分ってきたのはこれらオルタナティブ・メディアのおかげであり、いまさら既存マスメディアに頼るわけにはいかないと思う。

この記事では、歴史をひもといて、いつの時代にも新しい技術がもたらす麩の側面があったことに言及していて、単なる感覚的な物言い、もっと言えばただの愚痴に堕する事のないよう配慮されていると思う。古くはプラトンの著書「ファイドロス」には、文字の発明を嘆くソクラテスが描かれているそうだ。人がものを覚えずに紙に書き付けることによって、記憶することを辞めてしまい、忘れっぽくなることをおそれていたという。今は「忘れられること」=「新しいことを考えらるのに集中できる」として肯定されているのにね。また印刷機の発明も同様に知的怠慢を招くことが懸念されていたそうだ。

しかしこの筆者がインターネットの影響を恐れるのは、また別の次元のことであるようだ。記憶ということではなく、考える能力が阻害されることを恐れている。
集中して活字の海に潜ることが尊いのは、著者の言葉から得る知識のためではない。著者の言葉が私達の意識に知的か共振を生じさせるためだ。
そしてそれはネットでは得られないと主張している。

確かに一連の主張は共感するところがおおいにある。しかし、流し読みするのはネットの情報だけであって、相変わらず印刷物はちゃんと読んでいるんじゃないかな。

それにはいくつか原因があると思う。

・ネットの情報は取捨選択しなければならない。「ウソをウソと判断できる人でなければ...」ってやつですね。

・ネットの情報自体が断片的。本を読めば体系的にある分野が俯瞰できた。今は自分で断片を組みあわせて体系づけないといけない。

・いつでも脱線できる、いつでも戻れる安心感。書籍の場合分らない部分があってもとりあえず先に進めないといけない。一方ネットだとその場で調べられる。

・[これはブロガーだけの話かもしれないが]、あまり読みすぎると自分の意見を書く時間がなくなる。さらには自分の(少数と思っていた)意見は既にネット上にあることが多く、そうすると自分の意見はユニークではないことになり、わざわざ書くモチベーションがなくなる。もちろん意識して読まないようにしているとは言えないだろうが、見てしまうと書けなくなるので積極的には他の情報を求めなくなる。

きっと文字が出来た後、記憶を外部化するという利点を捉えて利点を活用することが推奨されたように、ネット時代にはネット時代なりの使い方のベスト・プラクティスなんていうのが出て来るのであろう。

なお、考える力に関して言うと、ここにラリー・ペイジの発言が引用されていた。
昨年、ペイジは科学者を集めた会議で語った。グーグルは「婚期で人工知能を構築しようとしている。しかも大規模に」と。
ここからHALにつながってくる。ターミネータに出てくるスカイネットも同じような存在だろう。

先日聴講したパネルディスカッションで、原爆を開発した科学者の反省に基づき、「研究者は技術が社会に対する影響を考えなければならない」旨の発言があったのを思い出した。ストリートビューによってもたらされる違和感も、それらの考察がない無邪気な技術への信仰に対する警鐘なのだと思う。
[PR]
by yoshihiroueda | 2008-08-10 22:01 | 科学・技術