Estimados suscriptores y seguidores del Club del Lenguaje No Verbal, en esta ocasión les presentamos un resumen del estudio “Accuracy of Inferring Self- and Other-Preferences from Spontaneous Facial Expressions», de  Michael S. North, Alexander Todorov y Daniel N. Osherson, quienes comprueban la precisión de la gente para leer las emociones de otros (y de uno mismo) a través de sus expresiones faciales cuando creen que no están siendo observados. 

¿Con qué precisión puede la gente leer una emoción casual de un rostro cuyo dueño no sospecha que está bajo observación? Pocos estudios cuantitativos han abordado esta cuestión. La investigación que evalúa la capacidad de las personas para inferir emociones de la cara típicamente se basa en imágenes fijas posadas. Por ejemplo, estudios que incorporan la batería de emociones básicas de Ekman muestran una categorización fiable de emociones a partir de fotos de actores que posan. Este resultado surge incluso cuando los estímulos representan la región de los ojos solamente. Tales experimentos revelan la habilidad de las personas para inferir emociones básicas, exageradas y representadas, pero no la información facial dinámica que se encuentra a diario.

Otros estudios han capturado el comportamiento dinámico mediante la grabación de vídeo. Sin embargo, hasta donde se sabe, sólo el «paradigma de la visión de diapositivas» de Buck se centra principalmente en el rostro como una fuente de información dinámica y espontánea (es decir, natural). En el experimento de Buck, los rostros de los objetivos son secretamente grabados ya que ven y discuten un conjunto de imágenes evocadoras; los perceptores luego ven este material (con sonido silenciado) y adivinan la categoría relevante y el grado de agrado general de cada imagen. La emotividad de los rostros, sin embargo, es extrema debido al carácter provocativo de los estímulos (por ejemplo, imágenes sexualizadas y cuerpos mutilados).

Otros estudios útiles miden la precisión a partir de un comportamiento facial sutil y dinámico, pero no de forma espontánea. Tales paradigmas tienden a utilizar representaciones dinámicas de las emociones o bien generan expresiones faciales sintéticas a través de un ordenador.

Los autores del experimento que resumimos trataron de comprobar la capacidad de las personas para inferior emociones en la cara en situaciones naturales del siguiente modo: En la primera fase del experimento los participantes fueron grabados de forma oculta mientras veían y clasificaban las imágenes de forma aislada. En la segunda fase los mismos participantes adivinaron las clasificaciones de los objetivos -incluyéndose a sí mismos- de los vídeos anteriores (sin sonido y sólo con la cara). Sólo se mostraron los vídeos; las imágenes fijas visualizadas por los destinatarios en la fase primera nunca se mostraron a los perceptores en la segunda fase.

28 estudiantes de edad media 19.96 años participaron en el experimento. Los participantes vieron secuencialmente un conjunto de 72 imágenes, que componían tres categorías diferentes (24 cada una): personas, pinturas y animales. Cada imagen apareció durante 3 segundos. Aunque los participantes siempre vieron a las 24 personas, pinturas y animales, respectivamente (en ese orden), el orden de las imágenes dentro de cada categoría fue aleatorizado entre los participantes. Para reducir la presencia de indicios como el tiempo de observación, se instruyó a los participantes a examinar cada imagen durante los 3 segundos completos antes de calificarla, incluso si determinaron el atractivo de la imagen en el primer segundo. Después de ver una imagen dada, los participantes tenían 5 segundos para proporcionar una calificación de – 10 a 10 indicando su reacción a cada persona («¿Qué tan atractiva es esta persona?»), pintura («¿Cuánto te gustaría tener esta pintura en la pared de tu dormitorio?») y animal («¿Qué tan bonito es este animal?»). A lo largo de la tarea, una cámara incorporada en el ordenador grababa en secreto las caras de los participantes.

Los vídeos grabados de forma secreta se unieron en clips individuales que mostraban sólo el período de visionado de 3 segundos; sólo se veía la cara de cada objetivo (y, ocasionalmente, los hombros). Así pues, para la siguiente fase se dispuso de una biblioteca de 2.016 clips individuales de los 28 objetivos.

La segunda fase presentó los vídeos en una pantalla de ordenador. 26 de los 28 participantes iniciales volvieron a participar como perceptores (al menos un mes después de su participación inicial) a cambio de un pago en efectivo. Debido a que no era factible solicitar a cada perceptor que emitiera 2.016 juicios individuales, los 28 objetivos se dividieron aleatoriamente en grupos de cuatro. Se pidió a cada perceptor que juzgara los cuatro objetivos dentro de su propio grupo (incluyéndose a sí mismo): de este modo, los perceptores adivinaron sus preferencias por 288 videoclips individuales, 72 de los cuales eran de sí mismos. Por cada clip de 3 segundos, se instruyó a los participantes para que adivinaran las clasificaciones de los objetivos, basándose únicamente en la información facial contenida en el video. La calificación empleó la misma escala ( – 10 a 10) utilizada por los objetivos.

El orden de presentación de los videoclips reflejaba la fase objetivo original (personas, pinturas, animales). El orden de los clips de vídeo para cada objetivo fue aleatorio, al igual que el orden de los objetivos dentro de cada categoría. Los receptores observaron 24 reacciones consecutivas de un objetivo dado antes de pasar a otro objetivo; en todo momento, se les mantuvo informados de la categoría de los estímulos y el juicio de preferencia en cuestión (por ejemplo, el atractivo de la persona).

Para cada perceptor, se calcularon cuatro correlaciones de Pearson, una para cada uno de los cuatro objetivos de su grupo (incluyéndose a sí mismo). Cada una de las correlaciones incluía 24 pares: es decir, la clasificación del objetivo frente al perceptor para una imagen determinada. Por lo tanto, la correlación cero significaba que no había sido capaz de identificar las caras, mientras que las correlaciones positivas indicaban una lectura exitosa.  Para un perceptor y categoría dados, se promediaron también las otras tres correlaciones (no propias) del perceptor (en cuanto a atractivo de persona, de pintura, o de animal).

Además, para cada uno de los 26 perceptores, la correlación con sí mismo (es decir, cuando tenía que leer su propia cara) se usó como “puntuación de autoexactitud” para cada categoría. Esta puntuación se contaba positiva (+1) cuando acertaban en la lectura, o neutra (0) cuando no acertaban. Pues bien, los resultados de los 26 perceptores (dicho de otro modo, la cantidad de participantes que aceptaron en su autoexactitud) fue de 21 en el atractivo de persona, 24 en atractivo de animal y 20 para belleza de pinturas.  Al combinar las tres correlaciones, 21 perceptores tuvieron autoexactitud positiva en los 3 casos.

En cuanto a la identificación de caras ajenas, la exactitud (sobre 26 personas) fue de 11 en el atractivo de persona, 13 en atractivo de animal y 16 para belleza de pinturas.

Estos resultados se traducen en una puntuación de precisión del 57% por encima de la probabilidad, según el “Binomial Effect Size Display” (que permite la traducción de la puntuación de precisión entre métricas correlacionales y proporcionales). Por lo tanto, el experimento actual provocó un efecto facial relativamente silenciado (aunque legible). Dada la finalidad a menudo interactiva de las expresiones faciales, los estudios de seguimiento podrían explorar si las expresiones pueden ser aún más legibles si emergen en un contexto social (por ejemplo, múltiples objetivos viendo las imágenes simultáneamente) o con objetivos familiares (por ejemplo, amigos cercanos).