OpenAI anunció el lanzamiento de una nueva capacidad integrada en su modelo más avanzado, GPT-4o, que permite la generación de imágenes directamente desde el chat.
Esta innovación representa un avance importante en el desarrollo de modelos multimodales, ya que permite crear contenido visual de alta calidad a partir de instrucciones escritas, sin necesidad de plataformas adicionales.
La nueva función se integra de forma nativa en ChatGPT, permitiendo generar imágenes fotorealistas, educativas, artísticas o conceptuales, con una precisión notable en la interpretación de los prompts, incluyendo elementos complejos como textos, diagramas, objetos múltiples y composiciones detalladas.
¿Qué hace única a esta herramienta?
A diferencia de modelos anteriores o complementarios como DALL·E, esta nueva funcionalidad se caracteriza por su capacidad multimodal nativa, lo que implica que el modelo puede procesar de forma conjunta texto e imagen dentro del mismo contexto conversacional. Esta integración permite:
- Renderizar texto dentro de las imágenes (por ejemplo, menús, señalizaciones o pósters académicos).
- Mantener coherencia en personajes y estilos a través de múltiples iteraciones o indicaciones sucesivas.
- Utilizar imágenes de referencia subidas por el usuario para generar contenido relacionado o inspirado en ellas.
- Atender indicaciones detalladas de estilo, como colores específicos (incluyendo códigos hex), proporciones, o estética fotográfica/artística.
Además, GPT-4o ha sido entrenado con una gran cantidad de datos visuales y textuales, lo que le confiere una fluidez visual avanzada, permitiéndole interpretar y representar simbología, perspectiva, iluminación y composición con alto nivel de precisión.
Aplicaciones académicas y profesionales
Esta herramienta tiene un alto potencial en contextos educativos y de investigación. Algunos usos destacados incluyen:
- Visualización de experimentos científicos, mapas conceptuales o diagramas técnicos.
- Creación de materiales didácticos personalizados, como tiras cómicas, infografías o ilustraciones temáticas.
- Exploración creativa en cursos de arte, diseño, comunicación o narrativa visual.
- Generación de prototipos visuales para proyectos en disciplinas como mercadeo, educación, ingeniería o ciencias sociales.
Además, al ser una herramienta conversacional, el proceso de creación puede ser iterativo y formativo, permitiendo a los usuarios ajustar detalles a medida que exploran ideas, conceptos o estilos visuales específicos.
Por otro lado, aunque la herramienta muestra un desempeño notable, aún presenta algunas limitaciones en la edición puntual de imágenes, el manejo de textos muy pequeños o lenguas no latinas, y puede recortar imágenes extensas como afiches.
La generación de imágenes con GPT-4o está disponible para usuarios Free, Plus, Pro y Team dentro de ChatGPT, con una interfaz accesible desde el chat. Se espera su próxima integración para usuarios Enterprise y educativos (Edu), así como acceso mediante API para desarrolladores.
La incorporación de generación de imágenes en GPT-4o refuerza el avance hacia modelos verdaderamente multimodales, capaces de comprender, razonar y crear a través del lenguaje y la imagen de forma integrada. Esta funcionalidad abre nuevas oportunidades para el desarrollo de contenidos educativos, la comunicación visual y la innovación en múltiples disciplinas.
OpenAI. (2025, marzo 25). Introducing 4o image generation. https://openai.com/index/introducing-4o-image-generation
