Debugging de prompts

Checklist de debug de prompts: cómo arreglar respuestas débiles, inconsistentes o demasiado genéricas

Un marco de diagnóstico para revisar prompts que producen outputs vagos, inestables o poco accionables en ChatGPT, Claude y Gemini.

Actualizado: 4 de abril de 202614 min de lecturaGuía de ingeniería de prompts

Contexto

Por qué importa esta guía

Cuando un prompt falla, muchas personas lo tratan como si el modelo estuviera “teniendo un mal día”. Esa explicación no sirve. En entornos serios, un prompt se depura como cualquier otra pieza de un sistema: identificando qué variable está rota, qué señal falta y qué parte del output se degrada.

El debugging de prompts no consiste en probar veinte variantes al azar. Consiste en revisar si la tarea está bien definida, si el contexto es suficiente, si las restricciones son claras, si el formato fuerza precisión y si el modelo está compensando vacíos con suposiciones.

Esta checklist te ayuda a encontrar el fallo real antes de seguir gastando tiempo y tokens en ensayo y error sin método.

Resumen

Puntos clave

  • Empieza revisando la definición de tarea y el objetivo final.
  • Comprueba si el modelo tiene el contexto mínimo necesario.
  • Distingue outputs vagos, inventados, mal estructurados o fuera de tono.
  • Corrige una variable cada vez para saber qué mejora de verdad.
  • Documenta patrones de fallo y plantillas de solución.
1

Bloque operativo

1) Identifica el tipo exacto de fallo antes de tocar el prompt

No todos los errores son iguales. A veces la respuesta es demasiado superficial. Otras veces inventa detalles, mezcla formatos o rompe el tono. Si no nombras el problema con precisión, terminarás cambiando varias cosas a la vez y no sabrás qué ha mejorado realmente.

Vago: falta profundidad o especificidad.
Inestable: el formato cambia entre ejecuciones.
Inventado: rellena huecos con claims no verificados.
Desalineado: responde, pero no a la tarea que realmente importa.
2

Bloque operativo

2) Revisa primero la tarea y el objetivo, no el estilo

Muchos prompts fallan porque piden “algo interesante” o “algo útil” sin definir para quién ni con qué criterio. Antes de tocar longitud, tono o creatividad, asegúrate de que el modelo entiende qué decisión debe facilitar o qué entregable tiene que producir.

3

Bloque operativo

3) Si falta contexto, el modelo inventará contexto

Los outputs débiles suelen ser un síntoma de inputs pobres. Si el modelo no sabe qué mercado, qué producto, qué buyer o qué restricciones entran en juego, generará una respuesta promedio. No porque quiera equivocarse, sino porque está optimizando con la señal que le has dado.

4

Bloque operativo

4) Corrige una variable por iteración y guarda el aprendizaje

La mejor forma de depurar es modificar una sola dimensión por vez: tarea, contexto, restricciones, formato o validación. Eso te permite aislar la causa del cambio y convertir el aprendizaje en una mejora de sistema, no en una intuición difícil de replicar.

Biblioteca de plantillas

Plantillas reutilizables

Prompt para auditar por qué un prompt falla

Cuando una instrucción produce resultados pobres y quieres diagnosticar la causa.

Voy a darte un prompt que está produciendo respuestas flojas.
Tu tarea es diagnosticar por qué falla.

Prompt actual:
"""
[PROMPT]
"""

Output problemático:
"""
[RESPUESTA]
"""

Analiza:
1) Qué parte del prompt es demasiado ambigua
2) Qué contexto falta
3) Qué restricciones no están claras
4) Qué formato debería exigirse
5) Cómo reescribirlo para obtener una respuesta más útil

Prompt de segunda pasada para validar calidad

Después de generar una respuesta y antes de aceptarla como válida.

Revisa la siguiente respuesta como si fueras un editor exigente.

Respuesta a revisar:
"""
[OUTPUT]
"""

Evalúa:
- claridad
- profundidad
- precisión
- cumplimiento del formato
- posibles suposiciones no respaldadas

Después, indica qué corregirías primero y por qué.

Control de calidad

Errores frecuentes y correcciones

Cambiar todo al mismo tiempo

Problema: No sabes qué ajuste produjo realmente la mejora.

Corrección: Itera cambiando una sola variable en cada prueba.

Diagnosticar por intuición

Problema: Se asume que el problema es de tono o creatividad cuando en realidad es de especificación.

Corrección: Clasifica el tipo de fallo antes de editar el prompt.

No guardar patrones de error

Problema: El equipo repite los mismos fallos una y otra vez.

Corrección: Documenta fallos recurrentes y crea plantillas de corrección reutilizables.

FAQ

Preguntas frecuentes

¿Qué hago si el output cambia mucho entre ejecuciones?

Suele indicar falta de estructura o restricciones insuficientes. Refuerza formato, criterios y límites antes de seguir iterando.

¿Cómo sé si falta contexto?

Si la respuesta suena correcta pero demasiado promedio, normalmente falta contexto sobre marca, mercado, audiencia o tarea exacta.

¿Conviene guardar prompts “buenos” y “malos” para aprender?

Sí. Tener ejemplos de fallo y de corrección acelera mucho el aprendizaje del equipo y reduce errores repetidos.

Fuentes

Referencias y lecturas complementarias