めかぶを食べてみた

めかぶ

以前の記事で形態素分析のめかぶ(MeCab)をPHPから利用するまでの手順を書きましたが、今回はMeCabの動作確認を含めて簡単なPHPアプリを作ってみました。

前回は、消化不良

前回の動作確認では下の文書をMeCabのparseToNodeに食べさせたのですが不純物が多く消化不良。

  • テストで投入した文書
    この世の中を!ウグッブーン!!!!ゴノ、ゴノ世のブッヒィフエエエーーーンン!ア゛ー世の中を!ゥ変エダイ!その一心でええ!!ィヒーフーッハゥ。一生懸命訴えて、西宮市に、縁もゆかりもない西宮ッヘエ市民の皆さまに、選出されて!やっと!議員に!なったんですうぅぅぅ。
    野々村議員のマネと称して耳に手を添えるのが流行っていますが、手の位置は耳の後ろではなく前です。もう一度いいます。手の位置は耳の前です。_人人人人人人人人_> 話聞く気なし <(引用:野々村クソコラbot@nonokora)

  • MeCabが食べた結果
    この,世の中,を,!,ウグッブーン,!,!,!,!,ゴノ,、,ゴノ,世,の,ブッヒィフエエエーーーンン,!,ア,゛,ー,世の中,を,!,ゥ,変,エダイ,!,その,一心,で,ええ,!,!,ィヒーフーッハゥ,。,一生懸命,訴え,て,、,西宮,市,に,、,縁,も,ゆかり,も,ない,西宮,ッヘエ,市民,の,皆さま,に,、,選出,さ,れ,て,!,やっと,!,議員,に,!,なっ,た,ん,です,う,ぅぅぅ,。,&#,13,;>,野々村,議員,の,マネ,と,称し,て,耳,に,手,を,添える,の,が,流行っ,て,い,ます,が,、,手,の,位置,は,耳,の,後ろ,で,は,なく,前,です,。,もう一度,いい,ます,。,手,の,位置,は,耳,の,前,です,。,_,人人,人人,人人,人人,_,>, ,話,聞く,気,なし, ,<,(,引用,:,野々村,クソコラ,bot,@,nonokora,)

今回は、

上の状態だとこの後の処理に使えないため、この問題を解消するためサンプルアプリを作成。

Screenshot_1

  • その処理結果は
    この世の中を、世の世の中を変その一心でええ。一生懸命訴えて、西宮市に、縁もゆかりもない西宮市民の皆さまに、選出されてやっと議員になったんですう。野々村議員のマネと称して耳に手を添えるのが流行っていますが、手の位置は耳の後ろではなく前です。もう一度いいます。手の位置は耳の前です。人人人人人人人人> 話聞く気なし <(引用野々村)

これで、この後の構造分析にやっと繋げる。

確認用のアプリは、こちら

サンプルコードは、こちら

PHPからMeCabを利用

インストール環境

事前準備

PHPライブラリ管理PEARをインストール

導入の設定

php-mecabの取得とビルド

PHPへmecab.soの設定とApacheの再起動

“PHPからMeCabを利用”の続きを読む

めかぶのインストール

形態素解析エンジンのめかぶ(MeCab)をインストール

  • 形態素解析とは(引用: Wikipedia

wikimedia

> 形態素解析(けいたいそかいせき、Morphological Analysis)とは、コンピュータ等の計算機を用いた自然言語処理の基礎技術のひとつ。かな漢字変換等にも応用されている。

Project Hosting

> MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです. 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています. パラメータの推定に Conditional Random Fields (CRF) を用 いており, ChaSenが採用している 隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します. ちなみに和布蕪(めかぶ)は, 作者の好物です.

インストール環境

No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 14.04.1 LTS
Release: 14.04
Codename: trusty

事前準備

g++コンパイラをインストール

MeCabのインストール

設定

インストール

辞書のインストール

設定

インストール

上の「インストール」と同じ

動作確認

↑の実行結果↓

すもも 名詞,一般,,,,,すもも,スモモ,スモモ
も 助詞,係助詞,,,,,も,モ,モ
もも 名詞,一般,,,,,もも,モモ,モモ
も 助詞,係助詞,,,,,も,モ,モ
もも 名詞,一般,,,,,もも,モモ,モモ
の 助詞,連体化,,,,,の,ノ,ノ
うち 名詞,非自立,副詞可能,,,,うち,ウチ,ウチ
です 助動詞,
,,,特殊・デス,基本形,です,デス,デス
EOS