Justo cuando empezaste a aceptar ChatGPTLas misteriosas capacidades de OpenAI lanzaron una nueva versión de su modelo de lenguaje AI.
OpenAI dice GPT-4 es mucho más avanzado que GPT-3, que impulsa ChatGPT. Y para probarlo, hicieron que GPT-4 se sentara para un montón de exámenes. IA abierta probado GPT-4(Se abre en una nueva pestaña) con una variedad de pruebas estandarizadas desde la escuela secundaria hasta el nivel profesional y que abarcan matemáticas, ciencias, codificación, historia, literatura e incluso la que toma para convertirse en sommelier. Los exámenes se componían de preguntas de opción múltiple y de respuesta libre y el GPT-4 se calificó utilizando la metodología estándar para cada examen.
Baja tu lápiz, GPT-4, es hora de revisar tus puntajes.
¿Qué, la facultad de derecho es difícil?
GPT-4 no solo ingresó a la facultad de derecho, sino que pasó la barra. El modelo de lenguaje de IA obtuvo un puntaje en el percentil 88 en los LSAT (Examen de admisión a la facultad de derecho) y lo hizo aún mejor en el Bar (Examen de barra uniforme) al obtener un puntaje en el percentil 90. En comparación, GPT-3 estaba en el 40 por ciento inferior de los LSAT y en el 10 por ciento en el Bar.
Las pruebas de admisión a la universidad fueron pan comido
GPT-4 tomó las secciones de matemáticas y lectura/escritura de los SAT y las tres secciones de los GRE que se dividen en habilidades cuantitativas, verbales y de escritura. Obtuvo un puntaje en el percentil 80 o 90 de todas las secciones excepto en la sección de escritura de los GRE… que bombardeó en el percentil 54.
El triunfador por excelencia, GPT-4 también tomó todo los exámenes de escuela secundaria AP (Advanced Placement). Superó a la mayoría de ellos, anotando entre el 84 y el 100, excepto por algunos valores atípicos.
GPT-4 obtuvo el puesto 44 en Lengua Inglesa AP y un mísero 22 en Literatura Inglesa AP. Entonces, todos ustedes, los artífices de la palabra, podrían tener más tiempo antes de que GPT-4 los reemplace. GPT-4 no lo hizo tan bien en AP Calculus BC anotando entre 43 y 59, lo que demuestra que incluso para una supercomputadora, el cálculo no es fácil. Pero eso todavía le da a GPT-4 un cuatro, por lo que aún podría quedar fuera del cálculo universitario.
GPT-4 tiene algo de trabajo de codificación por hacer
GPT-4 todavía tiene mucho trabajo por hacer con sus habilidades de codificación, lo cual es curioso ya que uno de sus usos comercializados es para ayudar a los desarrolladores. Su calificación para Codeforces, que organiza eventos de programación competitivos, es 392, lo que lo coloca en la categoría de novatos por debajo de 1199.
Lo hizo bastante bien en el nivel fácil de Leetcode (31 de 41 problemas resueltos), pero tuvo problemas en el nivel de dificultad medio o difícil (21/80 y 3/45 respectivamente). Como vimos en el transmisión en vivo de demostración para desarrolladores, GPT-4 es completamente capaz de escribir Python, pero requirió algunos ajustes manuales para establecer los parámetros correctos, lo que podría explicar algunos de estos puntajes de prueba. O tal vez no desayunó esa mañana.
Vale, pero ¿puede GPT-4 convertirse en sumiller?
GPT-4 pasó los exámenes de sommelier con gran éxito. Ocupó el lugar más bajo (percentil 77) en el examen de sommelier más avanzado. Pero para una entidad no humana que nunca ha probado el vino, lo dejaremos pasar.
OpenAI ha lanzado un desglose completo(Se abre en una nueva pestaña) de cómo se desempeñó GPT-4. Es posible que GPT-4 no escriba la próxima gran novela estadounidense… todavía, pero el futuro de GPT-4 como abogado matemáticamente brillante y conocedor de vinos parece bastante prometedor.