Всё про ИИ-токены: как нейросети режут слова на кусочки, почему русский язык обходится дороже английского и за что именно вы платите деньги по API.
Засунуть слово в блендер 🔬// 01 — основы
Нейросеть не читает слова так, как читаем мы. Она не знает, что такое «любовь» или «трактор». Она видит мир как мозаику из пронумерованных кусочков — токенов. Токен — это слог, часть слова или даже одна буква. Это базовая единица мышления ИИ.
// 02 — интерактив
Введите любой текст — и посмотрите, как ИИ разрезает его на токены. Попробуйте один и тот же текст на русском и английском, чтобы увидеть разницу в количестве токенов.
// 03 — налог на кириллицу
Нейросети обучались в основном на английском. Английские слова живут в их словаре целиком. Русские слова приходится «рубить» на мелкие слоги — значит тратить больше токенов.
// 04 — парадокс strawberry
Классический мем мира ИИ: спросите ChatGPT, сколько букв «r» в слове strawberry — старые версии упорно отвечали «две». Хотя их там три. Почему?
Для ИИ слово strawberry — это два токена: straw («солома») и berry («ягода»). Он видит концепты, а не отдельные символы.
// 05 — словарь
Три ключевых термина, которые встречаются в любом разговоре про большие языковые модели — объясняем просто.
// 06 — калькулятор
Вставьте фрагмент текста и узнайте примерную стоимость его обработки разными AI-моделями — сравните цены и найдите оптимальный вариант.