Go by Example: 文字列とルーン

Go の文字列は読み取り専用のバイトスライスです。言語と標準ライブラリは文字列を特別に扱います。テキストコンテナとして UTF-8 でエンコードされます。他の言語では、文字列は「文字」で構成されています。Goでは、文字の概念は「`ルーン`」と呼ばれます。ユニコードコードポイントを表す整数です。この Go Blog の投稿は、このトピックの良い紹介です。
	`package main`
	`import ( "fmt" "unicode/utf8" )`
	`func main() {`
`s` は、タイ語の単語「hello」を表すリテラル値が割り当てられた `文字列` です。Go文字列リテラルはUTF-8エンコードされたテキストです。	`const s = "สวัสดี"`
文字列は `[]byte` と同じなので、格納されている raw バイト長を生成します。	`fmt.Println("Len:", len(s))`
文字列のインデックス化は、各インデックスの raw バイト値を生成します。このループは `s` のコードポイントを構成するすべてのバイトの 16 進数値を生成します。	`for i := 0; i < len(s); i++ { fmt.Printf("%x ", s[i]) } fmt.Println()`
文字列のルーンの数を数えるには、`utf8` パッケージを使用します。`RuneCountInString` の実行時間は文字列のサイズによって異なります。これは各 UTF-8 ルーンを順番にデコードする必要があるからです。タイ文字の中には、複数のバイトにまたがる UTF-8 コードポイントによって表されるものがあり、このカウントの結果は驚くかもしれません。	`fmt.Println("Rune count:", utf8.RuneCountInString(s))`
`range` ループは文字列を特別に処理し、各 `ルーン` と文字列内のオフセットをデコードします。	`for idx, runeValue := range s { fmt.Printf("%#U starts at %d\n", runeValue, idx) }`
`utf8.DecodeRuneInString` 関数を明示的に使用することで、同じイテレーションを実現できます。	`fmt.Println("\nUsing DecodeRuneInString") for i, w := 0, 0; i < len(s); i += w { runeValue, width := utf8.DecodeRuneInString(s[i:]) fmt.Printf("%#U starts at %d\n", runeValue, i) w = width`
これは、ルーン値を関数に渡すことを示しています。	`examineRune(runeValue) } }`
	`func examineRune(r rune) {`
一重引用符で囲まれた値は、「ルーンリテラル」です。`ルーン` 値とルーンリテラルを直接比較できます。	`if r == 't' { fmt.Println("found tee") } else if r == 'ส' { fmt.Println("found so sua") } }`

$ go run strings-and-runes.go
Len: 18
e0 b8 aa e0 b8 a7 e0 b8 b1 e0 b8 aa e0 b8 94 e0 b8 b5 
Rune count: 6
U+0E2A 'ส' starts at 0
U+0E27 'ว' starts at 3
U+0E31 'ั' starts at 6
U+0E2A 'ส' starts at 9
U+0E14 'ด' starts at 12
U+0E35 'ี' starts at 15

Using DecodeRuneInString
U+0E2A 'ส' starts at 0
found so sua
U+0E27 'ว' starts at 3
U+0E31 'ั' starts at 6
U+0E2A 'ส' starts at 9
found so sua
U+0E14 'ด' starts at 12
U+0E35 'ี' starts at 15

次の例: 構造体。