Tokens: la moneda invisible de la inteligencia artificial

Tokens: la moneda invisible de la inteligencia artificial

3 min de lectura

Cada vez que le escribes a un modelo de IA, estás gastando algo. No es tiempo, no es energía —son tokens. Y entender qué son cambia cómo usas (y pagas) estas herramientas.

¿Qué es un token, exactamente?

Imagina que cada palabra que le dices a ChatGPT, Claude o Gemini cuesta una moneda de centavos. No exactamente una por palabra —a veces más, a veces menos. Esa "moneda" se llama token, y es la unidad mínima con la que los modelos de lenguaje leen y generan texto.

Un token no es una palabra. Es un fragmento de texto: puede ser una sílaba, una palabra completa, un signo de puntuación, o incluso un espacio. Los modelos no leen letras como tú y yo; dividen el texto en estos pedazos antes de procesarlo.

Ejemplo: La oración "La inteligencia artificial es fascinante." se divide en aproximadamente 8 tokens, algo así como: La / intelig / encia / artific / ial / es / fascinante / .

Regla práctica: En inglés, 1 token ≈ ¾ de palabra. En español, las palabras suelen ser más largas y generan más tokens. Escribir en español te cuesta, en general, un poco más.


¿Por qué importa para tu bolsillo?

Los modelos de IA no cobran por conversación ni por minuto —cobran por tokens. Y cuentan los dos lados: lo que tú envías (input) y lo que el modelo te responde (output). Si le mandas un documento largo para que lo resuma, pagas por el documento entero aunque la respuesta sea corta.

Costo = (tokens de entrada + tokens de salida) × precio por token

Los precios varían mucho según el modelo. Aquí un vistazo rápido a algunos de los más usados:

Modelo Precio por millón de tokens (entrada)
GPT-4o $2.50 USD
Claude Sonnet 4.5 $3.00 USD
Gemini 1.5 Flash $0.075 USD
GPT-4o mini $0.15 USD

Si usas los planes de pago mensual (ChatGPT Plus, Claude Pro), no ves el costo por token —pero sí ves los límites de mensajes. Esos límites existen precisamente porque cada conversación consume una cantidad distinta de tokens según su largo y complejidad.


El contexto: el costo oculto

Aquí viene lo que muchos no saben: en cada mensaje que envías, el modelo recibe también toda la conversación anterior. Cada vuelta de chat se acumula. Una conversación de 20 intercambios puede costar 10 veces más tokens que el primer mensaje.

A esto se le llama "ventana de contexto". Cuanto más larga la conversación, más tokens se consumen en cada mensaje nuevo —aunque no hayas dicho nada nuevo.


Cómo gastar menos sin sacrificar calidad

Hábitos que reducen tu consumo de tokens:

  • Sé directo. Instrucciones largas y ceremoniales ("Por favor, si no es mucha molestia…") consumen tokens sin agregar valor.
  • Empieza conversaciones nuevas cuando cambias de tema. El historial acumulado pesa.
  • Pega solo el fragmento relevante de un documento, no todo el texto.
  • Para tareas simples, usa modelos más pequeños (GPT-4o mini, Claude Haiku). Son mucho más baratos y muchas veces suficientes.
  • Si construyes apps con IA, considera "prompt caching" —algunos modelos cobran menos por contexto que se repite.

El token como unidad de pensamiento

Más allá del costo, entender los tokens te ayuda a entender por qué los modelos a veces "olvidan" instrucciones dadas al inicio de una conversación muy larga, o por qué responden de forma distinta a preguntas cortas y largas. El modelo ve tokens, no intenciones —y su capacidad de procesarlos tiene un límite físico.

La próxima vez que abras una ventana de chat con un modelo de IA, ya sabes: cada carácter cuenta. Literalmente.


Los precios indicados son referencias aproximadas a la fecha de publicación. Consulta la página oficial de cada proveedor para tarifas actualizadas.