// НАУЧПОП ОБ ИСКУССТВЕННОМ ИНТЕЛЛЕКТЕ

Из чего состоят
мысли робота?

Всё про ИИ-токены: как нейросети режут слова на кусочки, почему русский язык обходится дороже английского и за что именно вы платите деньги по API.

Засунуть слово в блендер 🔬
~4
символа на токен (EN)
~2
символа на токен (RU)
2–3×
русский дороже
возможностей понять ИИ

Анатомия токена

Нейросеть не читает слова так, как читаем мы. Она не знает, что такое «любовь» или «трактор». Она видит мир как мозаику из пронумерованных кусочков — токенов. Токен — это слог, часть слова или даже одна буква. Это базовая единица мышления ИИ.

нейросеть
ней ро сеть
7431 2108 5892
🧩
Базовый кирпичик
Как если бы вы читали книгу слогами, а не словами. «Ма-ма мы-ла ра-му» — 4 слова, но 6 токенов-слогов.
📖
Словарь ИИ
У каждой модели есть встроенный словарь (32 000–128 000 токенов). Каждому кусочку слова присвоен уникальный числовой ID.
🧠
Лимит памяти
Контекстное окно — это количество токенов, которые ИИ «помнит» одновременно. За пределом этого лимита — забвение.

Живой токенизатор

Введите любой текст — и посмотрите, как ИИ разрезает его на токены. Попробуйте один и тот же текст на русском и английском, чтобы увидеть разницу в количестве токенов.

0
токенов
0
символов
0
сим/токен
0
слов

Почему русский язык
для ИИ — роскошь

Нейросети обучались в основном на английском. Английские слова живут в их словаре целиком. Русские слова приходится «рубить» на мелкие слоги — значит тратить больше токенов.

🇬🇧
English — экономно
Hello! The neural network is amazing.
Hello ! The neural network is amazing .
~8 токенов
Расход лимита
+2–3× дороже
🇷🇺
Русский — дороже
Привет! Нейросеть — это удивительно.
Привет ! Нейросеть это удивительно .
~14–16 токенов
Расход лимита
💡 Практический вывод: если вы работаете с платным API и хотите сэкономить — пишите промпты на английском. Тот же смысл обойдётся вам в 2–3 раза дешевле. Особенно ощутимо при большом объёме текста.

Почему ИИ не умеет
считать буквы

Классический мем мира ИИ: спросите ChatGPT, сколько букв «r» в слове strawberry — старые версии упорно отвечали «две». Хотя их там три. Почему?

strawberry

Для ИИ слово strawberry — это два токена: straw («солома») и berry («ягода»). Он видит концепты, а не отдельные символы.

🔤 Как видим мы
s-t-r-a-w-b-e-r-r-y
10 отдельных букв. Считаем «r»: на 5-й, 9-й, 10-й позиции. Итого: 3
🤖 Как видит ИИ
[straw] [berry] — два блока.
Чтобы посчитать буквы, нужно «разобрать» блоки. Старые модели не делали этот дополнительный шаг. Ошибка!
YOU > Сколько букв «r» в слове strawberry?
GPT-3 > В слове strawberry две буквы «r».
GPT-4 > В слове strawberry три буквы «r»: stR-awbe-R-R-y. Правильный ответ — 3.

Словарь ИИ-копирайтера

Три ключевых термина, которые встречаются в любом разговоре про большие языковые модели — объясняем просто.

Эмбеддинг
Embedding
Каждый токен превращается в длинный список чисел (вектор) — математическое представление его смысла в пространстве всех понятий.
«Король» − «Мужчина» + «Женщина» ≈ «Королева»
Промпт
Prompt
Входные токены — всё, что вы «скармливаете» ИИ: инструкции, контекст, примеры, вопрос. Это ваш запрос.
Промпт = системный контекст + история + вопрос
Ответ
Completion / Output
Токены, которые ИИ генерирует в ответ на промпт. Модель предсказывает следующий токен, опираясь на все предыдущие.
P(следующий токен | все предыдущие)

Сколько стоит ваш текст?

Вставьте фрагмент текста и узнайте примерную стоимость его обработки разными AI-моделями — сравните цены и найдите оптимальный вариант.

* Цены приблизительные, актуальны примерно на 2025 год. Уточняйте на официальных сайтах провайдеров. Показана стоимость входных токенов (input). Выходные токены (output) обычно дороже в 3–5 раз.