c/c++

日本語文字コード判定、ICUを使ってみた。

文字コードの自動判定について調べていたらコチラの記事を見つけました。 日本語文字コード認識のテストレポートらしい - てきとうなメモ libguess 0.99971(5個)、 ICU 0.9996(6個)、 nkf 0.998567(25個)、 universalchardet 0.969221(537個) : 日本語限定…

c/c++で、htmlをパースする

c/c++用のHTML Parserの適当なライブラリを探していたところ、libxml2でもhtmlをパース出来ることを知りました。libxml2は、なかなか優れもので Push ModeによるChunkごとのパースも出来るようです。一括で読み込んで、パースという使い方ではなく、読み込み…