はらぺこ日誌

‘iconv’ タグのついている投稿

char32_t だと regex が使えない

2010 年 9 月 22 日水曜日

C++0x では UCS に対応し、専用の型やリテラルの記法が導入されました。その関係で、以下の点について調査を行っていました。

C++0x で UCS を UTF-32 として扱う型 char32_t, u32string およびリテラル U"..." と、 libiconv の UCS-4-INTERNAL との間に互換性はあるか。
C++0x で新たに追加された正規表現ライブラリ <regex> は利用可能か。
<regex> が利用できない場合、 Boost.Regex を用いて UTF-32 文字列を処理することは可能か。

これらの調査は、すべて otoco のコアデータを扱うプログラム内で内部文字列に UTF-32 を採用することを前提としたものでした。
(さらに…)

タグ:Boost, C++, C++0x, GCC, iconv, otoco, Unicode
カテゴリー: 技術メモ | 3 件のコメント »

libiconv で文字セット自動認識

2010 年 3 月 3 日水曜日

ご無沙汰ぶりです…。

以前、wchar_t はどうにも使い物にならないからどうしよう、といった記事を書いたのですが、その続きのお話です。

表題の通りで、 libiconv を用いて文字セットを自動認識する処理のサンプルを書いてみました。詳しい経緯はTicket 内で逐次コメントしています。
(さらに…)

タグ:C++, iconv, otoco, Unicode, 文字セット, 文字列処理
カテゴリー: 技術メモ, 活動記録 | コメントはまだありません »

otoco に限らず、 PC 上で動作するプログラムの多くは、テキストを処理することを目的の一部またはすべてとしています。 otoco の場合は特に、どこの誰とも分からない人が MML を書き、それを読み込んで XML やら SMF やらオーディオやら楽譜やらに変換することを目的としているので、どこの誰が MML を (あるいは XML を直接) 書いても問題なく処理できるよう、文字セットの扱いには丁重でなければなりません。

当初の方針として、 otoco では内部コードに Unicode を使用し、その物理型は wchar_t で扱うつもりでいました。この辺、C/C++ でのクロスプラットフォーム開発に慣れていないと陥りやすい罠であるように思うのですが… 現状の wchar_t ははっきり言ってクロスプラットフォーム開発には向いていないものといわざるを得ないようです。

とりあえず確認しているのは Windows の VC++ 2008 と Linux の gcc だけなのですが、それだけでも調べた限りで以下のような相違点がありました。

(さらに…)

タグ:C++, iconv, otoco, Unicode, wchar_t, 文字セット, 文字列処理
カテゴリー: 技術メモ, 活動記録 | 3 件のコメント »

日	月	火	水	木	金	土
« 10月
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

はらぺこ日誌

‘iconv’ タグのついている投稿

char32_t だと regex が使えない

libiconv で文字セット自動認識

頼りなさげな wchar_t

固定ページ

最近の投稿

カテゴリー

最近のコメント

アーカイブ

メタ情報