El chatbot favorito de todos ahora puede ver y oír y hablar. El lunes, OpenAI anunció nuevas capacidades multimodales para ChatGPT. Los usuarios ahora pueden tener conversaciones de voz o compartir imágenes con ChatGPT en tiempo real.
Las funciones de audio y multimodales se han convertido en la siguiente fase en la feroz competencia de la IA generativa. Meta lanzado recientemente Audiocraft para generar música con IA y Google Bardo y microsoft Bing Ambos han implementado funciones multimodales para sus experiencias de chat. La semana pasada, Amazon presentó una vista previa de un versión renovada de Alexa que estará impulsado por su propio LLM (modelo de lenguaje grande), e incluso Apple está experimentando con voz generada por IA, con voz personal.
Las capacidades de voz estarán disponibles en iOS y Android. Al igual que Alexa o Siri, puedes tocar para hablar con ChatGPT y te responderá en una de las cinco opciones de voz preferidas. A diferencia de los asistentes de voz actuales, ChatGPT funciona con LLM más avanzados, por lo que lo que escuchará es el mismo tipo de respuesta conversacional y creativa que GPT-4 y GPT-3.5 de OpenAI son capaces de crear con texto. El ejemplo que OpenAI compartió en el anuncio es generar un cuento antes de dormir a partir de un mensaje de voz. Entonces, los padres exhaustos al final de un largo día pueden subcontratar su creatividad a ChatGPT.
Es posible que el tuit haya sido eliminado
El reconocimiento multimodal es algo que se pronosticaba desde hace tiempo y ahora se lanza de forma fácil de usar para ChatGPT. Cuando GPT-4 fue lanzado En marzo pasado, OpenAI mostró su capacidad para comprender e interpretar imágenes y texto escrito a mano. Ahora será parte del uso diario de ChatGPT. Los usuarios pueden cargar una imagen de algo y preguntarle a ChatGPT al respecto: identificar una nube o hacer un plan de comidas basado en una foto del contenido de su refrigerador. Multimodal estará disponible en todas las plataformas.
Como ocurre con cualquier avance de la IA generativa, existen serias cuestiones de ética y privacidad a considerar. Para mitigar los riesgos de los deepfakes de audio, OpenAI dice que solo utiliza su tecnología de reconocimiento de audio para el caso de uso específico de «chat de voz». Además, fue creado con actores de doblaje con los que «trabajaron directamente». Dicho esto, el anuncio no menciona si las voces de los usuarios se pueden usar para entrenar el modelo cuando se inscribe en el chat de voz. Para las capacidades multimodales de ChatGPT, OpenAI dice que ha «tomado medidas técnicas para limitar significativamente la capacidad de ChatGPT para analizar y hacer declaraciones directas sobre las personas, ya que ChatGPT no siempre es preciso y estos sistemas deben respetar la privacidad de las personas». Pero la verdadera prueba de sus usos nefastos no se conocerá hasta que se lance a la naturaleza.
El chat de voz y las imágenes se implementarán para los usuarios de ChatGPT Plus y Enterprise en las próximas dos semanas, y para todos los usuarios «poco después».