OpenAI en producción presenta gpt-realtime y mejoras en la API Realtime, con nuevas voces y funciones que apuntan a agentes de voz más confiables.
OpenAI anuncia mejoras para agentes de voz en producción
OpenAI presentó hoy gpt-realtime, su modelo de voz más avanzado, y nuevas funciones en la API Realtime. Estas actualizaciones apuntan a crear agentes de voz más naturales y confiables. Además, abren posibilidades para empresas y desarrolladores que buscan servicios listos para producción.
Qué incluye la actualización de OpenAI
La API Realtime ahora soporta servidores MCP remotos. También acepta entradas de imagen y llamadas telefónicas mediante SIP. En consecuencia, las aplicaciones de voz pueden acceder a más contexto y herramientas externas. Por ejemplo, pueden recibir imágenes para interpretar contenido visual durante una llamada.
Mejoras en el modelo gpt-realtime
gpt-realtime ofrece mejoras notables en varias áreas. Sigue instrucciones complejas con mayor precisión. Además, llama herramientas externas cuando corresponde. El habla del modelo suena más natural y expresiva. También puede repetir alfanuméricos sin errores y cambiar de idioma en una misma frase.
El sistema responde mejor a mensajes de sistema y a instrucciones de desarrolladores. Por lo tanto, es útil en contextos donde se deben leer guiones palabra por palabra. Por ejemplo, en líneas de soporte que requieren avisos o descargos legales exactos.
Voces nuevas y exclusivas en OpenAI
OpenAI lanzó dos voces nuevas, Cedar y Marin. Estas voces están disponibles de forma exclusiva en la API Realtime. Ofrecen entonaciones más naturales y mayor expresividad. Finalmente, buscan mejorar la experiencia del usuario en interacciones telefónicas o asistentes virtuales.
Lea también: Musk demanda a Apple y OpenAI por presunto monopolio
Implicaciones para empresas y desarrolladores
Las novedades facilitan desplegar agentes de voz en entornos de producción. Sin embargo, las empresas deben evaluar la integración con sistemas existentes. Por ejemplo, la compatibilidad con SIP es útil para centros de atención telefónica ya activos.
Además, el soporte para entradas de imagen permite nuevos casos de uso. En consecuencia, se pueden ofrecer servicios más completos, como asistencia visual en tiempo real. Por lo tanto, las expectativas de calidad y precisión aumentan.
En resumen, OpenAI apuesta por llevar los agentes de voz a un nivel más práctico y realista. Estas actualizaciones prometen mayor control y capacidad técnica. No obstante, queda por ver cómo las adoptarán las empresas en la región.

