シリーズ La vie avec iMac (Mid 2007)

ちょっと本気でSpotlight

 コンピュータで扱う文書は数が増える一方。過去のメール、ダウンロードしたPDF、閲覧したWebページ、そして蓄積される自作の文書。それらを管理するにあたり、検索という手段はもはやかかせないものとなりました。といったわけで、Mac OS XにはSpotlightがあります。Tigerで搭載されたこの機能、私ももちろんこれを使える環境にあるわけですが、ですがほとんど使ってきませんでした。理由はいくつかありますが、主なものは、私の作成した文書はそのほぼすべてがWebに公開されているため、Googleで探した方が便利だからというものでした。私が文書を検索する際は、それを見付けて編集したいからではなく、参照したいからということが圧倒的に多いです。なので、ブラウザで開いて読めるWeb検索の方が楽。また参照先として公開文書にURIを示すことも多いから、こうなると当然Web検索の方が楽。こうした理由から、これまでほとんどSpotlightは使われてこなかったのです。

Spotlightを使わなかったもうひとつの理由

 けれど、もうひとつ理由があります。それはなにかというと、CotEditorで作成したテキストファイルをSpotlightで検索できないという問題があったのです。これ、一体なんでなんだろう。ファイル名は検索対象になるのに、ファイルの内容は検索できない。なんで? ただのテキストファイルなのに。ずっと謎に思ってきて、けれどこれまではWeb検索で用が足りていたから、この問題を特に追求するつもりもありませんでした。

 しかし、そうもいっていられない状況になってきたのですね。

Googleのとりこぼし

 Googleの検索が、少々信用できなくなってきたかなって、それが理由です。つい先日のことなんですが、ナントカという人の描いていた漫画『新釈ファンタジー絵巻』について思い出させることがあったのです。そういえば以前書いていたなあ、そう思って、自分のBlogの検索でナントカをキーワードにして検索してみたんですね。まずはBlog検索から。そうしたら、一件しか見付かならない。

ナントカをキーワードにしたBlog検索の結果

 いや、そんなはずないから。そう思って、Googleで検索。月ごとのインデックスを除いた結果が以下です。

ナントカをキーワードにしたBlog検索の結果

 『新釈ファンタジー絵巻』が出ましたね。でも、これじゃないんですよ。この記事よりあとに書いたものがあるんです。しかし、Googleはそれをインデックスしていない。まあ、それもいたしかたないとは思うんですが、しかしちょっと期待はずれではあります。それ以前に、Bloggerのブログ検索の結果が異常に悪い。これ、不具合らしいんですが、一向に改善される気配を見せず、正直困ってます。

新釈ファンタジー絵巻でも検索してみました

 半分以上がノイズです。しかも、これはGoogleの結果なんですが、Bloggerブログ検索は一件もヒットしないありさま。もう、だめだ。これらには頼れない。

 以上のような理由から、ローカルでSpotlightで検索できるようにする必要があったのですね。

しかし、なんで検索できないのか?

 これは、調べてみてわかりました。kanzメモLeopardのSpotlightによる日本語テキストの内容検索がその答えです。

 私は、Blogの記事を作成する際に、CotEditorを使っています。ベタのテキストファイル。Macintoshらしく拡張子はなしで、文字コードはBOMなしのUTF-8。これでずっと書いてきて、2009年9月4日時点で、記事数1,861項目。これらがSpotlightで内容を検索できない。その理由は、次のとおり。

ファイルタイプTEXTがついているテキストファイルは、拡張子の有無にかかわらず、Shift JISかBOM付きUTF-8のものだけがヒットする。逆に言うと、BOMなしUTF-8やEUCやJISのテキストファイルの内容をSpotlight検索したければ、ファイルタイプをつけずに拡張子(.txt、.pl、.php、.cなど)をつけ、Leopard上で編集しなければならない(テキストエディットで編集するか、さもなくばCotEditor、miなどでファイルタイプをつけないように設定して編集する)。

LeopardのSpotlightによる日本語テキストの内容検索

 ファイルタイプがTEXTで、拡張子のついていない、BOMなしUTF-8である私の書いた文書がヒットしないのは、こうした理由からでした。拡張子なしのファイルタイプTEXTである文書は、Snow LeopardではSimple Textフォーマットと判断され、対して拡張子txtありの文書はText Documentと判断されるようです。この違いによって、内容のインデックスが作られる、作られないという差異が生じる模様です。

 上記、引用した文章中には、ファイルタイプTEXTのテキストファイルは、拡張子の有無にかかわらず、Shift JISかBOM付きUTF-8のものだけがヒットする、結構ショッキングなことが書かれています。今から二千件にせまろうとするテキストファイルのフォーマット変更やファイルタイプ変更なんてしたくない。せいぜいやって拡張子つける程度だ。そう思っていたところ、同文章にこうした記述があって、ちょっとこれに賭けてみたいと思ったのでした。

JapaneseText.mdimporterをインストールしていれば、上記に関わらず、テキストファイルならどの文字コードであってもヒットする。但し、拡張子がなく、ファイルタイプTEXTがついているファイルはShift JISかBOM付きUTF-8のもののみヒットする。

 続く!


<   >

わたしの愛した機械へ トップページに戻る

公開日:2009.09.04
最終更新日:2009.09.04
webmaster@kototone.jp
Creative Commons License
こととねは、クリエイティブ・コモンズ・ライセンス(表示 - 継承 2.1 日本)の下でライセンスされています。