Перекодировка CP1251->Unicode->Utf-8

Задачу можно разбить на две части
1. Перекодировка CP1251 в Unicode
2. Unicode->Utf-8 (про Utf-8 довольно неплохо написано в википедии)

Unicode (во всяком случае 16), на каждый символ выделяется два байта - первый указатель на таблицу, второй на символ в этой таблице, для кодировки русских букв CP-1251 используется следующая таблица перекодировки (для символов больше 127)

unsigned short win_cp1251[128]=
{ 0x0402, 0x0403, 0x201A, 0x0453, 0x201E, 0x2026, 0x2020, 0x2021,
0x20AC, 0x2030, 0x0409, 0x2039, 0x040A, 0x040C, 0x040B, 0x040F,
0x0452, 0x2018, 0x2019, 0x201C, 0x201D, 0x2022, 0x2013, 0x2014,
0xFFFD, 0x2122, 0x0459, 0x203A, 0x045A, 0x045C, 0x045B, 0x045F,
0x00A0, 0x040E, 0x045E, 0x0408, 0x00A4, 0x0490, 0x00A6, 0x00A7,
0x0401, 0x00A9, 0x0404, 0x00AB, 0x00AC, 0x00AD, 0x00AE, 0x0407,
0x00B0, 0x00B1, 0x0406, 0x0456, 0x0491, 0x00B5, 0x00B6, 0x00B7,
0x0451, 0x2116, 0x0454, 0x00BB, 0x0458, 0x0405, 0x0455, 0x0457,
0x0410, 0x0411, 0x0412, 0x0413, 0x0414, 0x0415, 0x0416, 0x0417,
0x0418, 0x0419, 0x041A, 0x041B, 0x041C, 0x041D, 0x041E, 0x041F,
0x0420, 0x0421, 0x0422, 0x0423, 0x0424, 0x0425, 0x0426, 0x0427,
0x0428, 0x0429, 0x042A, 0x042B, 0x042C, 0x042D, 0x042E, 0x042F,
0x0430, 0x0431, 0x0432, 0x0433, 0x0434, 0x0435, 0x0436, 0x0437,
0x0438, 0x0439, 0x043A, 0x043B, 0x043C, 0x043D, 0x043E, 0x043F,
0x0440, 0x0441, 0x0442, 0x0443, 0x0444, 0x0445, 0x0446, 0x0447,
0x0448, 0x0449, 0x044A, 0x044B, 0x044C, 0x044D, 0x044E, 0x044F};

По традиции символы ASCII (ниже 127) пишутся как слышатся (но в два байта).
Это ограничение (увеличение текста даже латиницы в два раза) и смогла решить кодировка Utf-8.
Unicode->Utf8 (C) Wikipedia
0x00000000 - 0x0000007F 0xxxxxxx
0x00000080 - 0x000007FF 110xxxxx 10xxxxxx
и т.п.

кто понял молодец :) т.е. для символов ниже 127 - они пишутся как видется и в один байт (старший нулевой бит указывает что это однобайтный символ), для следующего диапазона Unicode - используется уже двух байтная подстановка и т.д.


int unichar_to_utf8( unsigned int c, char *outbuf )
{
unsigned int len ;
int first;
int i;

if (c < 0x80) {first = 0; len = 1;}
else if (c < 0x800) {first = 0xc0;len = 2;}
else if (c < 0x10000) {first = 0xe0;len = 3;}
else if (c < 0x200000) {first = 0xf0;len = 4;}
else if (c < 0x4000000) {first = 0xf8;len = 5;}
else {first = 0xfc;len = 6;}

for (i = len - 1; i > 0; --i)
{
outbuf[i] = (c & 0x3f) | 0x80;
c >>= 6;
}
outbuf[0] = c | first;

return len;
}

string convertToUtf8(const char* chars, int len)
{

if (len <= 0 || chars == NULL) return string();
const unsigned char * c = (const unsigned char *)chars;

char *uc = new char[len*4+1],*p=uc;

for (int i = 0; i < len; i++) {

unsigned short unicode=c[i]<127?c[i]:win_cp1251[c[i]-128];
p+=unichar_to_utf8(unicode,p);
}

*p=0;
string r=uc;
delete [] uc;
return r;
}