TermExtract::ICTCLAS
-- 検餤モテユZウ魑筵ク・蟀`・襭quot;ICTCLAS"井)
use TermExtract::ICTCLAS;
秘薦テキストを、"ICTCLAS"嶄猟の瞳奩・ソ・ークカモラ・愠ー・鬣爛ゥ、ヒ、ォ
、ア。「、ス、ホスYケ訷筅ネ、ヒネヲ・ニ・ュ・ケ・ネ、ォ、骭滄TモテユZ、魑ケ、ラ・愠ー・鬣爍」
オア・筵ク・蟀`・襪諒荒歎┐砲弔い討蓮HクラスTermExtract::Calc_Imp)か、
參和のサンプルスクリプトを歌孚のこと。
#!/usr/local/bin/perl -w
#
# ex_ICT.pl
#
# ファイルから ICTCLAS のИタ晳Yケ訷i、゜ネ。、
# 侏慳ウヲ、ヒ検餤モテユZ、ネ、ス、ホヨリメェカネ、オ、ケ・ラ・愠ー・鬣
#
# version 0.07
#
#
use TermExtract::ICTCLAS;
#use strict;
my $data = new TermExtract::ICTCLAS;
my $InputFile = "ICT_out.txt"; # 秘薦ファイル峺協
# プロセスのョ正」スKチヒ瓶Иタ
# (ロックディレクトリを聞喘した因コマ、ホ、゜」ゥ
$SIG{INT} = $SIG{QUIT} = $SIG{TERM} = 'sigexit';
# ウヲ・筰`・ノ、クカィ
# 1 。検餤モテユZ」ォヨリメェカネ。「2 。検餤モテユZ、ホ、゜
# 3 。カンマ曝俳り
my $output_mode = 1;
#
# 嶷勣業モ桐网ヌ。「゜BスモユZ、ホ"ムモ、ルハquot;、"ョ畝ハ、quot;。「"・ムゥ`・ラ・譽⑤轡謄quot;のい
# ずれをとるか゜x談。」・ムゥ`・ラ・譽⑤轡謄蓮狐Я蕗Cトワ。ケ、ケ、ィ、ハ、、
# 、゛、ソ。「"゜BスモユZ、ホヌ驤ケ、ハ、、"゜x談、筅「、遙「、ウ、ホ因コマ、マモテユZウFサリハ
# (、ネヤOカィ、オ、ニ、、、ミIDF、ホスM、゜コマ、錣撮④盃慴ⅱ飯磴鯰个
# デフォルトは"决べ方"をとる $obj->use_total)
#
#$data->use_total; # 决べ方をとる
#$data->use_uniq; # ョ畝ハ、ネ、
#$data->use_Perplexity; # ・ムゥ`・ラ・ュ・キ・ニ・」、ネ、TermExtract 3.04 メヤノマ)
#$data->no_LR; # スモヌ驤ケ、ハ、、 (TermExtract 4.02 メヤノマ)
#
# ヨリメェカネモ桐网ヌ。「゜Bスモヌ驤ヒ廷、アコマ、サ、テユZウF精カネヌ驤x談、ケ、
# $data->no_LR; との粛、゜コマ、サ、ヌモテユZウF精カネ、ホ、゜、ホヨリメェカネ、簍羌ノトワ
# 」ィ・ヌ・ユ・ゥ・襯箸"Frequency" $data->use_frq)
# TFはある喘ユZ、ャヒ訷ホモテユZ、ホメサイソ、ヒハケ、ニ、、、ソ因コマ、ヒ、筵ォ・ヲ・ネ
# Frequency 、マモテユZ、ャヒ訷ホモテユZ、ホメサイソ、ヒハケ、錣譴討い呂縫㎤Ε鵐箸靴覆
#
#$data->use_TF; # TF (Term Frequency) (TermExtract 4.02 參貧)
#$data->use_frq; # Frequencyによる喘ユZ精カネ
#$data->no_frq; # 精カネヌ驤ケ、ハ、、
#
# ヨリメェカネモ桐网ヌ。「ムァチ蕗Cトワ、ケ、ヲ、ォ、ノ、ヲ、ォ゜x談
# 」ィ・ヌ・ユ・ゥ・襯箸蓮∧荒辰靴覆$obj->no_stat)
#
#$data->use_stat; # 僥チ蕗Cトワ、ケ、ヲ
#$data->no_stat; # ムァチ蕗Cトワ、ケ、錣覆
#
# 嶷勣業モ桐网ヌ。「。ク・ノ・ュ・螂皈ネヨミ、ホモテユZ、ホ精カネ。ケ、ネ。ク゜BスモユZ、ホヨリメェカネ。ケ
# 、ホ、ノ、チ、鬢ヒアネヨリ、ェ、ッ、ォ、Oカィ、ケ、襦
# デフォルトn、マ」ア
# n、ャエュ、、、ロ、ノ。ク・ノ・ュ・螂皈ネヨミ、ホモテユZ、ホ精カネ。ケ、ホアネヨリ、ャク゜、゛、
#
#$data->average_rate(0.5);
#
# ムァチ蕗CトワモテDB、ヒ・ヌゥ`・ソ、﨧e、ケ、襪㎠匹Δx談
# ヨリメェカネモ桐网ヌ。「ムァチ蕗Cトワ、ケ、ヲ、ネ、ュ、マ。「・サ・テ・ネ、キ、ニ、ェ、、、ソ、ロ、ヲ、ャ
# 殪︻。」Иタ甯斫ヒムァチ蕗CトワモテDB、ヒオヌ乕、オ、譴討い覆ふZが根まれる
# と屎しく恬しない。
# デフォルトは、們キe、キ、ハ、、 $obj->no_storage」ゥ
#
#$data->use_storage; # ミ﨧e、ケ、
#$data->no_storage; # ミ﨧e、キ、ハ、、
#
# ムァチ蕗CトワモテDB、ヒハケモテ、ケ、訥BMをSDBM_Fileに峺協
# デフォルトは、DB_FileのBTREEモ❹・ノ」ゥ
#
#$data->use_SDBM;
#
# ゜^ネ・、ホ・ノ・ュ・螂皈ネ、ホタロキeスyモ共ケ、ヲ因コマ、ホ・ヌゥ`・ソ・ルゥ`・ケ、ホ
# ・ユ・。・、・訝獷鬟札奪
# デフォルトは "stat.db"と"comb.db"
#
$data->stat_db("statICT.db");
$data->comb_db("combICT.db");
#
# デ❹・ソ・ルゥ`・ケ、ホナナヒ詹愠テ・ッ、ホ、ソ、皃ホメサ瓶・ヌ・」・譽肇蠅鰆原
# ディレクトリ兆が腎猟忖双デフォルトの因コマ、マ・愠テ・ッ、キ、ハ、、
#
#$data->lock_dir("lock_dir");
#
# ニキヤ~・ソ・ークカ、ア徃、゜、ホ・ニ・ュ・ケ・ネ、ォ、鬘「・ヌゥ`・ソ、i、゜゛z、゜
# 検餤モテユZ・ケ・ネ、菽ミ、ヒキオ、ケ
# 」ィタロキeスyモ汽Bハケモテ。「・ノ・ュ・螂皈ネヨミ、ホ精カネハケモテ、ヒ・サ・テ・ネ」ゥ
#
#my @noun_list = $data->get_imp_word($str, 'var'); # ネ訌Δ篳
my @noun_list = $data->get_imp_word($InputFile); # 秘薦がファイル
#
# 念指實、゜゛z、タニキヤ~・ソ・ークカ、ア徃、゜・ニ・ュ・ケ・ネ・ユ・。・、・襪鰓Ⅳ
# モ❹・ノ、荀ィ、ニ。「検餤モテユZ・ケ・ネ、菽ミ、ヒキオ、ケ
#$data->use_stat->no_frq;
#my @noun_list2 = $data->get_imp_word();
# 、゛、ソ。「、ス、ホスYケ訷e、ホ・筰`・ノ、ヒ、隍Yケ訷ネ廷、アコマ、サ、
#@noun_list = $data->result_filter (\@noun_list, \@noun_list2, 30, 1000);
#
# 検餤モテユZ・ケ・ネ、ネモ桐网キ、ソヨリメェカネ、ヒ慳ウヲ、ヒウケ
#
foreach (@noun_list) {
# ハ痔ホ、゜、マア桄セ、キ、ハ、、
next if $_->[0] =~ /^\d+$/;
# 1ホトラヨ(GB)、ホ、゜、マア桄セ、キ、ハ、、
next if $_->[0] =~ /^[\x00-\x7F]$/;
next if $_->[0] =~ /^[\x81-\xFE][\x40-\xFE]$/;
next if $_->[0] =~ /^[\x81-\xEF][\x30-\x39][\x81-\xEF][\x30-\x39]$/;
# スYケ﨣桄セ
printf "%-60s %16.2f\n", $_->[0], $_->[1] if $output_mode == 1;
printf "%s\n", $_->[0] if $output_mode == 2;
printf "%s,", $_->[0] if $output_mode == 3;
}
、ウ、ホ・筵ク・蟀`・ヌ、マ。「get_imp_word 、ホ、゜携ラー、キ。「、ス、ヤヘ筅ホ・皈ス・テ・ノ、マモH
・筵ク・蟀`・TermExtract::Calc_Imp 、ヌ携ラー、オ、ニ、、、」
get_imp_word 、マニキヤ~・ソ・ークカモミ、、ウ魑オ、ソ⑽ユZ、「。ゥ、ホ⑽ユZ、ホユZ嶸
、ネニキヤ~ヌ驤ェ、ヒム}コマユZ、ヒノ嵭ノ、キ、ニ、、、襦修賻塒發離瓮愁奪匹砲弔い討蓮
TermExtract::Calc_Imp のPODドキュメントを歌孚すること。
嶄猟の瞳奩・ソ・ークカモ觸Y惚を肝のル❹ルによりム}コマユZ、ヒノ嵭ノ、ケ、」オレ」アメマ。「
Иタ甯斫ホ・ヌゥ`・ソ。「オレ」イメ狼擅衛侶N、ヌ、「、襦妊侫⑤襯箸任蓮擅
哈方は、瞳ヤ~・ソ・ークカ、ア徃、゜、ホ・ニ・ュ・ケ・ネ・ユ・。・、・襪箸覆襦5擅禍卜鍔崛
'var'がセットされたときには、及匯哈方を瞳ヤ~・ソ・ークカ、ア徃、ホ・ニ・ュ・ケ・ネ・ヌゥ`・ソ
、ャネ襪辰織好㎤薊`我ハネス粃共ケ、」
」ア」ョクキヤ~、マエホ、ホ、ネ、ェ、Yコマ、ケ、
1兆奩、ヒ譿、ケ、Z(ng n nr ns nt nz nx vn an i j) *メヤ矣。クテ鋕~。ケ
。奛。テ鋕~。「ミホネンヤ~。「ヨ昤~。「コモウノキヨ。「゜Bヤ~」ィコヘ。「モ襭④暴Y栽する。
劑コマユZ、ホマネ硤、ヒ、ハ、」
」ィ」イ」ゥミホネンヤ~(ag, a)
。奛。ミホネンヤ~。「ヨ昤~。「コモウノキヨ。「゜Bヤ~」ィコヘ。「モ襭④暴Y栽する。ム}コマユZ、ホ
マネ硤、ヒ、ハ、
」ィ」ウ」ゥヨ昤~(u), コモウノキヨ(k)
。奛。テ鋕~。「ミホネンヤ~、ヒスYコマ、ケ、
」ィ」エ」ゥ゜Bヤ~(c)
。奛。コヘ,モ襪ホ因コマ、ホ、゜。」テ鋕~、ヒスYコマ、ケ、」
」ィ」オ」ゥヌeヤ~(b)
。奛。テ鋕~, ヨ昤~。「゜Bヤ~」ィコヘ。「モ襭④暴Y栽する。ム}コマユZ、ホマネ硤、ヒ、ハ、/pre>
2個佩があった因コマ、マ。「、ス、ウ、ヌム}コマユZ、ホヌミ、熙ネ、ケ、/pre>
」ウ」ョユZ硤、ホネォスヌ・ケ・レゥ`・ケ、マネ。、ッ
。。」エ」ョエホ、ホモ崋ナ、萍痔ヌハシ、゛、Z、ホ因コマ、マ。「、ス、ウ、ヌム}コマユZ、ホヌミ、熙ネ、ケ、
+-%\&\$*#^|<>;:
」オ」ョム}コマユZ、マテ鋕~、ヌスK、錣襪發里箸掘壤瓩惑个齟ホ、ニ、/pre>
」カ」ョヨリメェカネモ桐网ヒ、ェ、、、ニエホ、ホユZ」ィヨ昤~」ォ矣スモヤ~」ォ゜Bヤ~」ゥ、マ殪メ弗ケ、
才 嚥 議 岻 吉 侏 塀 來
SEE ALSO
TermExtract::Calc_Imp
TermExtract::Chasen
TermExtract::MeCab
TermExtract::BrillsTagger
TermExtract::EnglishPlainText
TermExtract::ChainesPlainTextUC
TermExtract::ChainesPlainTextGB
TermExtract::JapanesePlainTextEUC
TermExtract::JapanesePlainTextSJIS
COPYRIGHT
このプログラムは、翻セゥエァ ヨミエィヤ」ヨセスフハレ、ホヨミホト検餤モテユZウ魑ホ・「・、・ヌ・「
。。、ェ、ヒ。「翻セゥエァ ヌーフ鐇(maeda@lib.u-tokyo.ac.jp)が恬撹したものである。
碧、ホ・チ・ァ・テ・ッ、マ。「翻セゥエァ ミ。講コニヨョ(kojime@e.u-tokyo.ac.jp)、ャミミ、テ、ソ。」
、ハ、ェ。「アセ・ラ・愠ー・鬣爨ホハケモテ、ヒ、ェ、、、ニノ妤ク、ソ、、、ォ、ハ、觸Yケ訷ヒ騅、キ、ニ、箏アキス、ヌ、マ
メサヌミリ淙ホ、豆錣覆ぁ/pre>