심리학의 재현성 위기(The Replication Crisis in Psychology)

심리학의 재현성 위기

By and

University of Utah, University of Virginia, Portland State University

In science, replication is the process of repeating research to determine the extent to which findings generalize across time and across situations. Recently, the science of psychology has come under criticism because a number of research findings do not replicate. In this module we discuss reasons for non-replication, the impact this phenomenon has on the field, and suggest solutions to the problem.

과학에서 재현(replication)은 연구 결과가 시간과 상황에 따라 어느 정도 일반화되는지 확인하기 위해 연구를 반복하는 과정입니다. 최근 심리학은 많은 연구 결과가 재현되지 않는다는 이유로 비판을 받고 있습니다. 이 모듈에서는 재현되지 않는 이유와 이러한 현상이 현장에 미치는 영향에 대해 논의하고 문제에 대한 해결책을 제시합니다.

학습 목표

  • Define “replication”
  • Explain the difference between exact and conceptual replication
  • List 4 explanations for non-replication
  • Name 3 potential solutions to the replication crisis
  • "재현성"의 정의
  • exact replication과 conceptual replication의 차이 설명하기
  • 재현 실패(non-replication)의 대한 설명 4개 나열
  • 재현성 위기에 대한 3가지 가능한 해결책 말하기

 충격적인 문제

If you were driving down the road and you saw a pirate standing at an intersection you might not believe your eyes. But if you continued driving and saw a second, and then a third, you might become more confident in your observations. The more pirates you saw the less likely the first sighting would be a false positive (you were driving fast and the person was just wearing an unusual hat and billowy shirt) and the more likely it would be the result of a logical reason (there is a pirate themed conference in town). This somewhat absurd example is a real-life illustration of replication: the repeated findings of the same results.

도로를 운전하다가 교차로에 서 있는 해적을 본다면 자신의 눈을 믿지 못할 것입니다. 하지만 계속 운전하다가 두 번째, 세 번째 해적을 목격했다면 관찰에 대한 확신이 생길 수 있습니다. 해적을 더 많이 목격할수록 첫 번째 목격이 오탐지일 가능성은 줄어들고(빨리 움직이던 와중에 그 사람이 특이한 모자와 불룩한 셔츠를 입고 있었다), 논리적인 이유(마을에서 해적을 주제로 한 행사가 있다)에 의한 결과일 가능성이 높아집니다. 다소 터무니없는 이 예는 동일한 결과가 반복적으로 나타나는 복제의 실제 사례를 보여줍니다.Four pirates
If you saw a pirate you might not believe it; but if you saw another one you would feel more confident in your observation. In science, this is the process of replication. [Image: Dave Hamster, https://goo.gl/xg5QKi, CC BY 2.0, https://goo.gl/BRvSA7]

The replication of findings is one of the defining hallmarks of science. Scientists must be able to replicate the results of studies or their findings do not become part of scientific knowledge. Replication protects against false positives (seeing a result that is not really there) and also increases confidence that the result actually exists. If you collect satisfaction data among homeless people living in Kolkata, India, for example, it might seem strange that they would report fairly high satisfaction with their food (which is exactly what we found in Biswas-Diener & Diener, 2001). If you find the exact same result, but at a different time, and with a different sample of homeless people living in Kolkata, however, you can feel more confident that this result is true (as we did in Biswas-Diener & Diener, 2006).

연구 결과의 재현성는 과학의 가장 큰 특징 중 하나입니다. 과학자는 연구 결과를 재현할 수 있어야 하며, 그렇지 않으면 연구 결과가 과학적 지식의 일부가 되지 못합니다. 재현성은 오탐(실제로 존재하지 않는 결과를 보는 것)을 방지하고 결과가 실제로 존재한다는 확신을 높여줍니다. 예를 들어 인도 콜카타에 거주하는 노숙자들을 대상으로 만족도 데이터를 수집하는 경우, 그들이 음식에 대해 상당히 높은 만족도를 보고하는 것이 이상하게 보일 수 있습니다(Biswas-Diener & Diener, 2001에서 발견한 것과 정확히 일치합니다). 그러나 콜카타에 거주하는 다른 노숙자 표본을 대상으로 다른 시점에 똑같은 결과가 나온다면 이 결과가 사실이라는 확신을 가질 수 있습니다(Biswas-Diener & Diener, 2006에서 그랬던 것처럼).

In modern times, the science of psychology is facing a crisis. It turns out that many studies in psychology—including many highly cited studies—do not replicate. In an era where news is instantaneous, the failure to replicate research raises important questions about the scientific process in general and psychology specifically. People have the right to know if they can trust research evidence. For our part, psychologists also have a vested interest in ensuring that our methods and findings are as trustworthy as possible.

현대 심리학은 위기에 직면해 있습니다. 많이 인용되는 많은 연구를 포함하여 심리학의 많은 연구가 재현되지 않는 것으로 밝혀졌습니다. 뉴스가 즉각적으로 전달되는 시대에 연구를 재현하지 못한다는 것은 일반적으로 과학적 과정과 특히 심리학에 대한 중요한 의문을 제기합니다. 사람들은 연구 증거를 신뢰할 수 있는지 알 권리가 있습니다. 심리학자 역시 우리의 연구 방법과 결과를 최대한 신뢰할 수 있도록 해야 할 책임이 있습니다.

Psychology is not alone in coming up short on replication. There have been notable failures to replicate findings in other scientific fields as well. For instance, in 1989 scientists reported that they had produced “cold fusion,” achieving nuclear fusion at room temperatures. This could have been an enormous breakthrough in the advancement of clean energy. However, other scientists were unable to replicate the findings. Thus, the potentially important results did not become part of the scientific canon, and a new energy source did not materialize. In medical science as well, a number of findings have been found not to replicate—which is of vital concern to all of society. The non-reproducibility of medical findings suggests that some treatments for illness could be ineffective. One example of non-replication has emerged in the study of genetics and diseases: when replications were attempted to determine whether certain gene-disease findings held up, only about 4% of the findings consistently did so.

심리학뿐만 아니라 다른 과학 분야에서도 연구 결과를 재현하는 데 실패한 사례가 많습니다. 다른 과학 분야에서도 주목할 만한 연구 결과의 재현 실패가 있었습니다. 예를 들어, 1989년 과학자들은 상온에서 핵융합을 달성하는 '상온 핵융합'에 성공했다고 보고했습니다. 이는 청정 에너지 발전에 엄청난 돌파구가 될 수 있었습니다. 그러나 다른 과학자들은 이 연구 결과를 재현하지 못했습니다. 따라서 잠재적으로 중요한 결과가 과학적 정설의 일부가 되지 못했고 새로운 에너지원이 실현되지 못했습니다. 의학에서도 많은 연구 결과가 재현될 수 없는 것으로 밝혀졌으며, 이는 모든 사회에서 매우 중요한 관심사입니다. 의학적 발견의 재현 불가능성은 일부 질병 치료법이 효과가 없을 수 있음을 시사합니다. 유전학 및 질병 연구에서 복제 불가능성의 한 가지 예가 나타났는데, 특정 유전자와 질병에 대한 결과가 유지되는지 확인하기 위해 재현을 시도했을 때 약 4%의 결과만이 일관되게 유지되는 것으로 나타났습니다.

The non-reproducibility of findings is disturbing because it suggests the possibility that the original research was done sloppily. Even worse is the suspicion that the research may have been falsified. In science, faking results is the biggest of sins, the unforgivable sin, and for this reason the field of psychology has been thrown into an uproar. However, as we will discuss, there are a number of explanations for non-replication, and not all are bad.

연구 결과의 재현 불가능성은 원래 연구가 엉성하게 이루어졌을 가능성을 시사하기 때문에 충격입니다. 더 심각한 것은 연구가 조작되었을 수 있다는 의혹입니다. 과학에서 연구 결과를 위조하는 것은 용서할 수 없는 가장 큰 죄악이며, 이러한 이유로 심리학 분야는 큰 혼란에 빠졌습니다. 그러나 앞으로 설명하겠지만, 재현 실패에 대한 설명에는 여러 가지가 있으며 모두 나쁜 것은 아닙니다.

재현성이란 무엇인가요?

Top image - group of 8 men presented with lines a varying length. Bottom image - group of two men and two women presented with varying types of fruit.
Example of direct replication and conceptual replication of Asch's conformity experiment.

There are different types of replication. First, there is a type called “exact replication” (also called "direct replication"). In this form, a scientist attempts to exactly recreate the scientific methods used in conditions of an earlier study to determine whether the results come out the same. If, for instance, you wanted to exactly replicate Asch’s (1956) classic findings on conformity, you would follow the original methodology: you would use only male participants, you would use groups of 8, and you would present the same stimuli (lines of differing lengths) in the same order. The second type of replication is called “conceptual replication.” This occurs when—instead of an exact replication, which reproduces the methods of the earlier study as closely as possible—a scientist tries to confirm the previous findings using a different set of specific methods that test the same idea. The same hypothesis is tested, but using a different set of methods and measures. A conceptual replication of Asch’s research might involve both male and female confederates purposefully misidentifying types of fruit to investigate conformity—rather than only males misidentifying line lengths.

재현에는 여러 가지 유형이 있습니다. 첫째, "직접 재현"(direct replication, exact replication라고도 함)라는 유형이 있습니다. 이 형태에서 과학자는 이전 연구 조건에서 사용된 과학적 방법을 정확히 재현하여 결과가 동일한지 확인하려고 시도합니다. 예를 들어, 동조에 관한 Asch(1956)의 고전적인 연구 결과를 직접 재현하려면 남성 참가자만 사용하고, 8명으로 구성된 그룹을 사용하며, 동일한 자극(길이가 다른 선)을 동일한 순서로 제시하는 등 원래의 방법론을 따라야 합니다. 두 번째 유형의 복제는 "개념 재현(conceptual replication)라고 합니다. 이는 이전 연구의 방법을 최대한 가깝게 재현하는 정확한 복제 대신 과학자가 동일한 개념을 검증하는 다른 특정 방법을 사용하여 이전 결과를 확인하려고 시도할 때 발생합니다. 동일한 가설을 테스트하지만 다른 방법과 측정을 사용합니다. 아쉬의 연구를 개념적으로 복제할 경우, 남성과 여성 모두 일부러 과일의 종류를 잘못 말하는 말하는 것을 포함할 것입니다. -- 남성만 줄 기리를 잘못 인지하는 대신에요.

직접 재현과 간접 재현은 각각 새로운 것을 알려주기 때문에 모두 중요합니다. 직접 재현은 적어도 실험한 정확한 조건에서 원래 결과가 사실인지 여부를 알려줍니다. 개념적 복제는 결과의 배경이 되는 이론적 아이디어가 사실인지, 어떤 조건에서 이러한 결과가 발생하는지 확인하는 데 도움이 됩니다. 즉, 개념적 복제는 연구 결과를 얼마나 일반화할 수 있는지에 대한 인사이트를 제공합니다. 

현재 위기의 심각성

Percentage of findings published in prestigious journals which have replicated: (1) Journal of Personality and Social Psychology - Social, 23%, (2) Journal of Experimental Psychology - Learning, Memory, and Cognition, 48%, (3) Psychological Science - social articles, 29%, (4) Psychological Science - cognitive articles, 53%
Table 1: The Reproducibility of Psychological Science

Recently, there has been growing concern as psychological research fails to replicate. To give you an idea of the extent of non-replicability of psychology findings, below are data reported in 2015 by the Open Science Collaboration project, led by University of Virginia psychologist Brian Nosek (Open Science Collaboration, 2015). Because these findings were reported in the prestigious journal, Science, they received widespread attention from the media. Here are the percentages of research that replicated—selected from several highly prestigious journals:

최근 심리학 연구의 재현 실패에 대한 우려가 커지고 있습니다. 어느 정도 심리학 연구가 재현에 실패하는지를 봅시다. 다음은 버지니아 대학교의 심리학자 브라이언 노섹이 이끄는 오픈 사이언스 콜라보레이션 프로젝트에서 2015년에 보고한 데이터를(오픈 사이언스 콜라보레이션, 2015)입니다. 이 연구 결과는 저명한 학술지 사이언스(Science)에 보고되어 언론의 광범위한 관심을 받았습니다. 다음은 여러 권위 있는 저널에서 선별한 연구의 재현 비율입니다:

Clearly, there is a very large problem when only about 1/3 of the psychological studies in premier journals replicate! It appears that this problem is particularly pronounced for social psychology but even the 53% replication level of cognitive psychology is cause for concern.

일류 학술지에 실린 심리학 연구의 약 1/3만이 재현된다는 것은 분명히 매우 큰 문제입니다! 이 문제는 특히 사회심리학에서 두드러지는 것으로 보이지만, 인지심리학의 53% 복제 수준도 우려를 일으킵니다.

The situation in psychology has grown so worrisome that the Nobel Prize-winning psychologist Daniel Kahneman called on social psychologists to clean up their act (Kahneman, 2012). The Nobel laureate spoke bluntly of doubts about the integrity of psychology research, calling the current situation in the field a “mess.” His missive was pointed primarily at researchers who study social “priming,” but in light of the non-replication results that have since come out, it might be more aptly directed at the behavioral sciences in general.

심리학계의 상황이 굉장히 우려되는 수준이 되자 노벨 심리학상을 수상한 심리학자 다니엘 카네만은 사회 심리학자들에게 그들의 행동을 바로잡을 것을 촉구했습니다(카네만, 2012). 노벨상 수상자는 심리학계의 현 상황을 "엉망진창"이라고 말하며 심리학 연구의 무결성에 대한 의구심을 직설적으로 표현하였습니다. 그의 비판은 주로 사회적 '점화'을 연구하는 연구자들을 겨냥한 것이었지만, 이후 나온 재현되지 않는 연구 결과를 고려하면 행동 과학 전반을 겨냥한 것이 더 적절할 수 있습니다.

심리학에서의 재현 불가 예시

 A large number of scientists have attempted to replicate studies on what might be called “metaphorical priming,” and more often than not these replications have failed. Priming is the process by which a recent reference (often a subtle, subconscious cue) can increase the accessibility of a trait. For example, if your instructor says, “Please put aside your books, take out a clean sheet of paper, and write your name at the top,” you might find your pulse quickening. Over time, you have learned that this cue means you are about to be given a pop quiz. This phrase primes all the features associated with pop quizzes: they are anxiety-provoking, they are tricky, your performance matters.

많은 수의 과학자들이 "은유적 점화 효과(metaphorical priming)"이라고 불리는 최근 연구를 복재하려고 시도했지만, 대부분 실패로 돌아갔습니다. 점화는 최근의 프라이밍은 최근의 언급(종종 미묘하고 무의식적인 단서)로 인해 어떤 특성을 더 많이 접하게 되는 과정입니다. 예를 들어, 강사가 "책을 옆으로 치우고 깨끗한 종이를 꺼내서 맨 위에 이름을 써 보세요"라고 말하면 맥박이 빨라지는 것을 느낄 수 있습니다. 시간이 지남에 따라 이 단서가 곧 깜짝 퀴즈가 출제될 것임을 의미한다는 것을 알게 됩니다. 그 말은 불안을 일으키고, 어렵고, 못 맞치면 안되는 깜짝 퀴즈와 관련된 모든 특징들에 대해 준비시킵니다.

A stereotypical image of a professor - a white, middle-aged man with glasses and a beard, dressed in a coat and tie stands with chalk in hand in front of a blackboard which displays a mathematical formula.
In one study, researchers enhanced test performance by priming participants with stereotypes of intelligence. But subsequent studies have not been able to replicate those results. [Image: CC0 Public Domain, https://goo.gl/m25gce]

One example of a priming study that, at least in some cases, does not replicate, is the priming of the idea of intelligence. In theory, it might be possible to prime people to actually become more intelligent (or perform better on tests, at least). For instance, in one study, priming students with the idea of a stereotypical professor versus soccer hooligans led participants in the “professor” condition to earn higher scores on a trivia game (Dijksterhuis & van Knippenberg, 1998). Unfortunately, in several follow-up instances this finding has not replicated (Shanks et al, 2013). This is unfortunate for all of us because it would be a very easy way to raise our test scores and general intelligence. If only it were true.

적어도 어떤 경우에는 재현되지 않는 점화 연구의 한 가지 예는 지능이라는 개념에 대한 점화입니다. 이론적으로는 사람들이 실제로 더 똑똑해지거나 적어도 시험에서 더 나은 성적을 거두도록 점화하는 것이 가능할 수도 있습니다. 예를 들어, 한 연구에서 학생들에게 전형적인 교수와 축구 훌리건이라는 고정관념을 주입한 결과, '교수' 조건의 참가자가 퀴즈 게임에서 더 높은 점수를 얻었습니다(Dijksterhuis & van Knippenberg, 1998). 안타깝게도 여러 후속 연구에서 이 결과는 재현되지 않았습니다(Shanks et al, 2013). 이는 우리 모두에게 불행한 일입니다. 시험 점수와 일반적인 지능을 높이는 매우 쉬운 방법이 될 수 있기 때문입니다. 사실이라면 얼마나 좋을까요?

Another example of a finding that seems not to replicate consistently is the use of spatial distance cues to prime people’s feelings of emotional closeness to their families (Williams & Bargh, 2008). In this type of study, participants are asked to plot points on graph paper, either close together or far apart. The participants are then asked to rate how close they are to their family members. Although the original researchers found that people who plotted close-together points on graph paper reported being closer to their relatives, studies reported on PsychFileDrawer—an internet repository of replication attempts—suggest that the findings frequently do not replicate. Again, this is unfortunate because it would be a handy way to help people feel closer to their families.

일관되게 재현되지 않는 것으로 보이는 또 다른 연구 결과의 예로는 공간적 거리 단서를 사용하여 사람들이 가족에 대한 정서적 친밀감을 점화하는 연구가 있습니다(Williams & Bargh, 2008). 이 유형의 연구에서는 참가자에게 그래프 용지에 서로 가깝거나 멀리 떨어져 있는 점을 그리도록 요청합니다. 그런 다음 참가자들은 자신이 가족과 얼마나 가까운지 평가하도록 요청받습니다. 원래 연구자들은 그래프 종이에 서로 가까운 점을 표시한 사람들이 친척과 더 가깝다고 보고했지만, 인터넷 재현 시도 저장소인 PsychFileDrawer에 보고된 연구 결과에 따르면 이러한 결과는 빈번하게 재현되지 않는 것으로 나타났습니다. 사람들이 가족과 더 가깝게 느끼는 데 도움이 될 수 있는 편리한 방법이기 때문에 다시 한 번 안타까운 일입니다.

As one can see from the examples, some of the studies that fail to replicate report extremely interesting findings—even counterintuitive findings that appear to offer new insights into the human mind. Critics claim that psychologists have become too enamored with such newsworthy, surprising “discoveries” that receive a lot of media attention. Which raises the question of timing: might the current crisis of non-replication be related to the modern, media-hungry context in which psychological research (indeed, all research) is conducted? Put another way: is the non-replication crisis new?

예시에서 볼 수 있듯이, 재현되지 못한 연구 중 일부는 매우 흥미로운 결과, 심지어 인간의 마음에 대한 새로운 통찰력을 제공하는 것처럼 보이는 반직관적인 결과를 보고합니다. 비평가들은 심리학자들이 언론의 많은 관심을 받는 뉴스 가치가 있고 놀라운 '발견'에 너무 매료되었다고 주장합니다. 이 시점에서 질문이 생깁니다. 재현 불가에 대한 현재 위기는 심리학 연구(사실 모든 연구)에서 언론에 굶주려 있는 것이 배경으로 작동한 것일까요? 다시 말해, 재현성 위기는 새로운 현상일까요?

Nobody has tried to systematically replicate studies from the past, so we do not know if published studies are becoming less replicable over time. In 1990, however, Amir and Sharon were able to successfully replicate most of the main effects of six studies from another culture, though they did fail to replicate many of the interactions. This particular shortcoming in their overall replication may suggest that published studies are becoming less replicable over time, but we cannot be certain. What we can be sure of is that there is a significant problem with replication in psychology, and it’s a trend the field needs to correct. Without replicable findings, nobody will be able to believe in scientific psychology.

과거의 연구를 체계적으로 재현하려고 시도한 사람은 아무도 없었기 때문에 시간이 지남에 따라 발표되는 연구의 재현 가능성이 낮아지고 있는지는 알 수 없습니다. 그러나 1990년에 아미르와 샤론은 다른 문화권에서 수행된 6개의 연구에서 대부분의 주요 효과를 성공적으로 재현할 수 있었지만, 많은 상호작용을 재현하는 데는 실패했습니다. 그들의 전반적인 재현에서 나타난 결점은 시간이 지남에 따라 발표되는 연구의 재현 가능성이 낮아지고 있음을 시사할 수 있지만 확신할 수는 없습니다. 우리가 확신할 수 있는 것은 심리학의 재현 가능성에는 심각한 문제가 있으며, 이는 심리학계가 바로잡아야 할 추세라는 것입니다. 재현 가능한 연구 결과가 없다면 아무도 과학적 심리학을 믿을 수 없을 것입니다.

재현 불가의 이유

When findings do not replicate, the original scientists sometimes become indignant and defensive, offering reasons or excuses for non-replication of their findings—including, at times, attacking those attempting the replication. They sometimes claim that the scientists attempting the replication are unskilled or unsophisticated, or do not have sufficient experience to replicate the findings. This, of course, might be true, and it is one possible reason for non-replication.

연구 결과가 재현되지 않을 경우, 원래의 과학자들은 때때로 분노하고 방어적인 태도를 보이며 연구 결과가 복제되지 않는 이유나 변명을 제시하고, 때로는 재현를 시도하는 과학자들을 공격하기도 합니다. 이들은 때때로 재현를 시도하는 과학자가 숙련되지 않았거나 정교하지 않거나 연구 결과를 복제하기에 충분한 경험이 없다고 주장하기도 합니다. 물론 이는 사실일 수 있으며 재현 불가의 이유 중 하나일 수 있습니다.

One reason for defensive responses is the unspoken implication that the original results might have been falsified. Faked results are only one reason studies may not replicate, but it is the most disturbing reason. We hope faking is rare, but in the past decade a number of shocking cases have turned up. Perhaps the most well-known come from social psychology. Diederik Stapel, a renowned social psychologist in the Netherlands, admitted to faking the results of a number of studies. Marc Hauser, a popular professor at Harvard, apparently faked results on morality and cognition. Karen Ruggiero at the University of Texas was also found to have falsified a number of her results (proving that bad behavior doesn’t have a gender bias). Each of these psychologists—and there are quite a few more examples—was believed to have faked data. Subsequently, they all were disgraced and lost their jobs.

방어적인 반응을 보이는 이유 중 하나는 원래 결과가 위조되었을 수 있다는 것을 암묵적으로 시사하기 때문입니다. 위조된 결과는 연구 결과가 복제되지 않는 이유 중 하나일 뿐이지만, 가장 불안한 이유이기도 합니다. 연구 결과를 위조하는 일이 드물기를 바라지만, 지난 10년 동안 충격적인 사례가 다수 발견되었습니다. 아마도 가장 잘 알려진 사례는 사회 심리학에서 나온 것일 것입니다. 네덜란드의 저명한 사회심리학자인 디데릭 스타펠은 여러 연구 결과를 위조한 사실을 인정했습니다. 하버드의 유명 교수인 마크 하우저는 도덕성과 인지에 관한 연구 결과를 위조한 것으로 밝혀졌습니다. 텍사스 대학교의 카렌 루지에로 역시 자신의 연구 결과(나쁜 행동에 성별 편향이 없다는 것을 증명)를 위조한 것으로 밝혀졌습니다. 이 외에도 많은 심리학자들이 데이터를 위조한 것으로 추정되는 사례들이 있습니다. 그 후 그들은 모두 불명예를 안고 일자리를 잃었습니다.

Another reason for non-replication is that, in studies with small sample sizes, statistically-significant results may often be the result of chance. For example, if you ask five people if they believe that aliens from other planets visit Earth and regularly abduct humans, you may get three people who agree with this notion—simply by chance. Their answers may, in fact, not be at all representative of the larger population. On the other hand, if you survey one thousand people, there is a higher probability that their belief in alien abductions reflects the actual attitudes of society. Now consider this scenario in the context of replication: if you try to replicate the first study—the one in which you interviewed only five people—there is only a small chance that you will randomly draw five new people with exactly the same (or similar) attitudes. It’s far more likely that you will be able to replicate the findings using another large sample, because it is simply more likely that the findings are accurate.

표본 크기가 작은 연구에서 통계적으로 유의미한 결과가 우연에 의한 것일 수 있다는 점도 재현 불가의 또 다른 이유입니다. 예를 들어, 5명에게 다른 행성에서 온 외계인이 지구를 방문하여 정기적으로 인간을 납치한다고 믿는지 묻는다면, 이 개념에 동의하는 3명이 우연히 나올 수 있습니다. 사실 이들의 답변은 전체 인구를 전혀 대표하지 않을 수도 있습니다. 반면에 천 명을 대상으로 설문조사를 실시하면 외계인 납치에 대한 그들의 믿음이 실제 사회의 태도를 반영할 확률이 더 높습니다. 이제 이 시나리오를 재현성라는 맥락에서 생각해 보세요. 5명만 인터뷰한 첫 번째 연구를 재현하려고 할 때, 정확히 같은(또는 비슷한) 태도를 가진 5명의 새로운 사람을 무작위로 추첨할 확률은 매우 낮습니다. 다른 대규모 샘플을 사용하여 조사 결과를 재현할 수 있는 확률이 훨씬 더 높습니다. 왜냐하면 조사 결과가 정확할 가능성이 더 높기 때문입니다.

Another reason for non-replication is that, while the findings in an original study may be true, they may only be true for some people in some circumstances and not necessarily universal or enduring. Imagine that a survey in the 1950s found a strong majority of respondents to have trust in government officials. Now imagine the same survey administered today, with vastly different results. This example of non-replication does not invalidate the original results. Rather, it suggests that attitudes have shifted over time.

재현하지 않는 또 다른 이유는 원래 연구의 결과가 사실일 수 있지만, 특정 상황에서 일부 사람들에게만 해당될 수 있으며 반드시 보편적이거나 지속적이지 않을 수 있기 때문입니다. 1950년대에 실시한 설문조사에서 응답자의 대다수가 정부 공무원을 신뢰한다고 답했다고 상상해 보세요. 이제 오늘날 동일한 설문조사를 실시하여 전혀 다른 결과가 나왔다고 상상해 보세요. 이 재현 불가 사례는 원래의 결과를 무효화하지 않습니다. 오히려 시간이 지남에 따라 태도가 변화했음을 시사합니다.

A final reason for non-replication relates to the quality of the replication rather than the quality of the original study. Non-replication might be the product of scientist-error, with the newer investigation not following the original procedures closely enough. Similarly, the attempted replication study might, itself, have too small a sample size or insufficient statistical power to find significant results.  

재현 불가의 마지막 이유는 원본 연구의 품질보다는 재현 연구의 품질과 관련이 있습니다. 재현 불가는 과학자 오류의 산물일 수 있으며, 새로운 연구가 원래의 절차를 충분히 따르지 않았을 수 있습니다. 마찬가지로, 시도된 재현 연구 자체의 표본 크기가 너무 작거나 통계적으로 유의미한 결과를 도출하기에는 통계적 힘이 부족할 수도 있습니다.  

In Defense of Replication Attempts

Failures in replication are not all bad and, in fact, some non-replication should be expected in science. Original studies are conducted when an answer to a question is uncertain. That is to say, scientists are venturing into new territory. In such cases we should expect some answers to be uncovered that will not pan out in the long run. Furthermore, we hope that scientists take on challenging new topics that come with some amount of risk. After all, if scientists were only to publish safe results that were easy to replicate, we might have very boring studies that do not advance our knowledge very quickly. But, with such risks, some non-replication of results is to be expected.

재현 실패가 모두 나쁜 것은 아니며, 사실 과학에서는 일부 재현 실패를 예상해야 합니다. 독창적인 연구는 질문에 대한 답이 불확실할 때 수행됩니다. 즉, 과학자들은 새로운 영역으로 모험을 떠나는 것입니다. 이러한 경우 장기적으로는 밝혀지지 않을 해답이 발견될 수 있다는 것을 예상해야 합니다. 또한, 과학자들이 어느 정도의 위험을 감수하고 새로운 주제에 도전하기를 바랍니다. 과학자들이 재현하기 쉬운 안전한 결과만 발표한다면, 우리는 지식을 빠르게 발전시키지 못하는 매우 지루한 연구를 하게 될지도 모릅니다. 하지만 이러한 위험을 감수하는 만큼 결과의 재현 불가는 어느 정도 예상할 수 있습니다.

A woman analyzing data on a computer. Researchers use statistical software to store, analyze and share data.
Researchers use specialized statistical software to store, analyze, and share data. Saving data over time and sharing data with others can be useful in conducting replications. [Image: Kwantlen Polytechnic University Psychology Department, CC BY 2.0, https://goo.gl/BRvSA7]

A recent example of risk-taking can be seen in the research of social psychologist Daryl Bem. In 2011, Bem published an article claiming he had found in a number of studies that future events could influence the past. His proposition turns the nature of time, which is assumed by virtually everyone except science fiction writers to run in one direction, on its head. Needless to say, attacks on Bem’s article came fast and furious, including attacks on his statistics and methodology (Ritchie, Wiseman & French, 2012). There were attempts at replication and most of them failed, but not all. A year after Bem’s article came out, the prestigious journal where it was published, Journal of Personality and Social Psychology, published another paper in which a scientist failed to replicate Bem’s findings in a number of studies very similar to the originals (Galak, Lebeouf, Nelson & Simmons, 2012).

위험을 감수하는 것의 최근 사례는 사회 심리학자 대릴 벰의 연구에서 찾아볼 수 있습니다. 2011년, 벰은 여러 연구를 통해 미래의 사건이 과거에 영향을 미칠 수 있다는 사실을 발견했다는 내용의 논문을 발표했습니다. 그의 주장은 공상과학 작가를 제외한 거의 모든 사람들이 한 방향으로만 흘러간다고 가정하는 시간의 본질을 뒤집는 것입니다. 말할 필요도 없이, 벰의 논문에 대한 공격은 그의 통계와 방법론에 대한 공격을 포함하여 빠르고 격렬하게 이루어졌습니다(Ritchie, Wiseman & French, 2012). 재현 시도가 있었고 대부분 실패했지만 모두 실패하지는 않았습니다. 벰의 논문이 발표된 지 1년 후, 이 논문이 실린 저명한 저널인 Journal of Personality and Social Psychology에서는 한 과학자가 원본과 매우 유사한 여러 연구에서 벰의 연구 결과를 재현하는 데 실패한 또 다른 논문을 발표했습니다(Galak, Lebeouf, Nelson, & Simmons, 2012).

Some people viewed the publication of Bem’s (2011) original study as a failure in the system of science. They argued that the paper should not have been published. But the editor and reviewers of the article had moved forward with publication because, although they might have thought the findings provocative and unlikely, they did not see obvious flaws in the methodology. We see the publication of the Bem paper, and the ensuing debate, as a strength of science. We are willing to consider unusual ideas if there is evidence to support them: we are open-minded. At the same time, we are critical and believe in replication. Scientists should be willing to consider unusual or risky hypotheses but ultimately allow good evidence to have the final say, not people’s opinions.

일부 사람들은 벰(2011)의 독창적인 연구 발표를 과학계의 실패로 간주했습니다. 그들은 이 논문이 출판되어서는 안 된다고 주장했습니다. 그러나 논문의 편집자와 검토자들은 연구 결과가 도발적이고 가능성이 낮다고 생각했을지 모르지만 방법론에 명백한 결함이 있다고 생각하지 않았기 때문에 출판을 강행했습니다. 우리는 벰 논문의 발표와 그에 따른 논쟁이 과학의 강점이라고 생각합니다. 우리는 특이한 아이디어라도 이를 뒷받침할 증거가 있다면 기꺼이 고려할 수 있는 열린 마음을 가지고 있습니다. 동시에, 우리는 비판적이며 재현성을 믿습니다. 과학자들은 비정상적이거나 위험한 가설을 기꺼이 고려하되, 궁극적으로는 사람들의 의견이 아닌 좋은 증거가 최종 결정권을 갖도록 해야 합니다.

문제의 해결책

재현 시도 보급

  • Psychfiledrawer.org: 특정한 연구의 재현과 재현 성공 여부를 기록
  • Center for Open Science: 심리학에서 재현을 옹호하는 심리학자 브라이언 노섹은 재현를 신고할 수 있는 오픈 사이언스 프레임워크를 만들었습니다.
  • Association of Psychological Science: 심리 과학에 대한 관점(Perspectives on Psychological Science)에 전체 결과가 게시된 연구 재현본을 등록했습니다.
  • Plos One: Public Library of Science—실패한 재현를 포함한 광범위한 논문을 게시하며, 특정 분야의 재 시도에 대한 요약본도 간혹 있습니다.
  • The Replication Index: 2014년에 울리히 쉬맥이 만든 소위 'R 지수'는 연구, 학술지, 심지어 특정 연구자의 재현 가능성을 추정하기 위한 통계적 도구입니다. 쉬맥은 이를 "도핑 테스트"라고 설명합니다. 

The fact that replications, including failed replication attempts, now have outlets where they can be communicated to other researchers is a very encouraging development, and should strengthen the science considerably. One problem for many decades has been the near-impossibility of publishing replication attempts, regardless of whether they’ve been positive or negative.

실패한 재현 시도를 포함한 재현 결과가 다른 연구자들에게 전달될 수 있는 통로가 생겼다는 사실은 매우 고무적인 발전이며, 과학을 상당히 강화할 것입니다. 지난 수십 년 동안 한 가지 문제점은 재현 시도가 긍정적이든 부정적이든 관계없이 이를 발표하는 것이 거의 불가능했다는 점입니다..

과학 연구를 위한 좀더 체계적인 프로그램

The six principles of open science: open data, open source, open access, open methodology, open peer review, open educational resources.
Figure 1: 6 Principles of Open Science - adapted from openscienceASAP. [Underlying Image: Greg Emmerich, https://goo.gl/UmVaoD, CC BY-SA 2.0, https://goo.gl/rxiUsF]

The reward structure in academia has served to discourage replication. Many psychologists—especially those who work full time at universities—are often rewarded at work—with promotions, pay raises, tenure, and prestige—through their research. Replications of one’s own earlier work, or the work of others, is typically discouraged because it does not represent original thinking. Instead, academics are rewarded for high numbers of publications, and flashy studies are often given prominence in media reports of published studies.

학계의 보상 구조는 재현를 억제하는 역할을 해왔습니다. 많은 심리학자, 특히 대학에서 풀타임으로 일하는 심리학자들은 연구를 통해 승진, 급여 인상, 종신 재직, 명성 등 직장에서 보상을 받는 경우가 많습니다. 자신의 이전 연구나 다른 사람의 연구를 복제하는 것은 독창적인 사고가 아니기 때문에 일반적으로 권장되지 않습니다. 대신, 학자들은 많은 수의 논문을 발표하면 보상을 받고, 발표된 연구에 대한 언론 보도에서 화려한 연구가 주목을 받는 경우가 많습니다.

Psychological scientists need to carefully pursue programmatic research. Findings from a single study are rarely adequate, and should be followed up by additional studies using varying methodologies. Thinking about research this way—as if it were a program rather than a single study—can help. We would recommend that laboratories conduct careful sets of interlocking studies, where important findings are followed up using various methods. It is not sufficient to find some surprising outcome, report it, and then move on. When findings are important enough to be published, they are often important enough to prompt further, more conclusive research. In this way scientists will discover whether their findings are replicable, and how broadly generalizable they are. If the findings do not always replicate, but do sometimes, we will learn the conditions in which the pattern does or doesn’t hold. This is an important part of science—to discover how generalizable the findings are.

심리학자들은 계획적 연구를 신중하게 추진해야 합니다. 단일 연구의 결과만으로는 충분한 경우가 드물기 때문에 다양한 방법론을 사용한 추가 연구가 뒤따라야 합니다. 연구를 단일 연구가 아닌 하나의 프로그램처럼 생각하면 도움이 될 수 있습니다. 연구실에서는 다양한 방법을 사용하여 중요한 발견을 추적하는 일련의 연동 연구를 신중하게 수행할 것을 권장합니다. 놀라운 결과를 발견하여 보고하고 넘어가는 것만으로는 충분하지 않습니다. 연구 결과가 발표될 만큼 중요한 경우, 그 결과는 종종 더 결정적인 추가 연구를 촉발할 만큼 중요합니다. 이러한 방식으로 과학자들은 자신의 연구 결과가 재현 가능한지, 그리고 얼마나 광범위하게 일반화할 수 있는지를 발견할 수 있습니다. 발견한 결과가 항상 재현되지는 않지만 가끔 재현되는 경우, 이러한 패턴이 유지되거나 유지되지 않는 조건을 알게 됩니다. 이는 과학에서 중요한 부분으로, 연구 결과가 얼마나 일반화 가능한지 알아내는 것입니다.

When researchers criticize others for being unable to replicate the original findings, saying that the conditions in the follow-up study were changed, this is important to pay attention to as well. Not all criticism is knee-jerk defensiveness or resentment. The replication crisis has stirred heated emotions among research psychologists and the public, but it is time for us to calm down and return to a more scientific attitude and system of programmatic research.

연구자들이 후속 연구의 조건이 바뀌었다며 원래 연구 결과를 재현할 수 없다고 다른 연구자들을 비판할 때, 이 점도 주의해야 합니다. 모든 비판이 무턱대고 방어하거나 분노를 표출하는 것은 아닙니다. 재현성 위기는 연구 심리학자들과 대중 사이에서 뜨거운 감정을 불러일으켰지만, 이제는 진정하고 보다 과학적인 태도와 계획적 연구 시스템으로 돌아갈 때입니다.

Textbooks and Journals 교과서 및 저널

Some psychologists blame the trend toward non-replication on specific journal policies, such as the policy of Psychological Science to publish short single studies. When single studies are published we do not know whether even the authors themselves can replicate their findings. The journal Psychological Science has come under perhaps the harshest criticism. Others blame the rash of nonreplicable studies on a tendency of some fields for surprising and counterintuitive findings that grab the public interest. The irony here is that such counterintuitive findings are in fact less likely to be true precisely because they are so strange—so they should perhaps warrant more scrutiny and further analysis.

일부 심리학자들은 재현하지 않는 경향을 짧은 단일 연구를 출판하는 Psychological Science의 정책과 같은 특정 저널 정책 탓으로 돌리기도 합니다. 단일 연구가 출판되면 저자 자신조차도 자신의 연구 결과를 재현할 수 있는지 알 수 없습니다. Psychological Science 저널은 아마도 가장 혹독한 비판을 받고 있습니다. 다른 사람들은 일부 분야에서 대중의 관심을 끌기 위해 놀랍고 반직관적인 연구 결과를 발표하는 경향이 있기 때문에 재현 불가능한 연구가 쇄도한다고 비난합니다. 여기서 아이러니한 점은 이러한 반직관적인 연구 결과는 사실 너무 이상하기 때문에 사실일 가능성이 낮기 때문에 더 면밀한 조사와 추가 분석이 필요하다는 것입니다.

The criticism of journals extends to textbooks as well. In our opinion, psychology textbooks should stress true science, based on findings that have been demonstrated to be replicable. There are a number of inaccuracies that persist across common psychology textbooks, including small mistakes in common coverage of the most famous studies, such as the Stanford Prison Experiment (Griggs & Whitehead, 2014) and the Milgram studies (Griggs & Whitehead, 2015). To some extent, the inclusion of non-replicated studies in textbooks is the product of market forces. Textbook publishers are under pressure to release new editions of their books, often far more frequently than advances in psychological science truly justify. As a result, there is pressure to include “sexier” topics such as controversial studies.

학술지에 대한 비판은 교과서에도 적용됩니다. 저희는 심리학 교과서는 재현 가능한 것으로 입증된 연구 결과를 바탕으로 진정한 과학에 중점을 두어야 한다고 생각합니다. 스탠퍼드 감옥 실험(Griggs & Whitehead, 2014), 밀그램 연구(Griggs & Whitehead, 2015)와 같이 가장 유명한 연구들을 공통적으로 다루는 데 있어 작은 실수를 포함하여 일반적인 심리학 교과서에는 부정확한 부분이 많이 있습니다. 교과서에 재현되지 않은 연구가 포함되는 것은 어느 정도는 시장의 힘의 산물입니다. 교과서 출판사는 심리 과학의 발전이 실제로 발전하는 것보다 훨씬 더 자주 새로운 버전의 책을 출간해야 한다는 압박을 받고 있습니다. 그 결과, 논란의 여지가 있는 연구와 같은 "더 섹시한" 주제를 포함해야 한다는 압박이 있습니다.

Ultimately, people also need to learn to be intelligent consumers of science. Instead of getting overly-excited by findings from a single study, it’s wise to wait for replications. When a corpus of studies is built on a phenomenon, we can begin to trust the findings. Journalists must be educated about this too, and learn not to readily broadcast and promote findings from single flashy studies. If the results of a study seem too good to be true, maybe they are. Everyone needs to take a more skeptical view of scientific findings, until they have been replicated. 

궁극적으로 사람들은 과학의 현명한 소비자가 되는 법을 배워야 합니다. 단일 연구의 결과에 지나치게 흥분하기보다는 재현 연구를 기다리는 것이 현명합니다. 어떤 현상에 대한 연구 집단이 구축되면 우리는 그 결과를 신뢰할 수 있습니다. 언론인들도 이에 대해 교육을 받아야 하며, 단발성 연구 결과를 쉽게 방송하고 홍보하지 않는 법을 배워야 합니다. 연구 결과가 사실이라고 보기에는 너무 좋아 보일때, 진짜로 사실이 아닐 수 있습니다. 모든 사람은 과학적 연구 결과가 재현되기 전까지는 보다 회의적인 시각을 가져야 합니다. 

Outside Resources

Article: New Yorker article on the "replication crisis"
http://www.newyorker.com/tech/elements/the-crisis-in-social-psychology-that-isnt
Web: Collaborative Replications and Education Project - This is a replication project where students are encouraged to conduct replications as part of their courses.
https://osf.io/wfc6u/
Web: Commentary on what makes for a convincing replication.
http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2283856
Web: Open Science Framework - The Open Science Framework is an open source software project that facilitates open collaboration in science research.
https://osf.io/
Web: Psych File Drawer - A website created to address “the file drawer problem”. PsychFileDrawer.org allows users to upload results of serious replication attempts in all research areas of psychology.
http://psychfiledrawer.org/

Discussion Questions

  1. Why do scientists see replication by other laboratories as being so crucial to advances in science?
  2. Do the failures of replication shake your faith in what you have learned about psychology? Why or why not?
  3. Can you think of any psychological findings that you think might not replicate?
  4. What findings are so important that you think they should be replicated?
  5. Why do you think quite a few studies do not replicate?
  6. How frequently do you think faking results occurs? Why? How might we prevent that?
  1. 과학자들은 왜 다른 실험실의 재현성 과학 발전에 그토록 중요하다고 생각하나요?
  2. 재현성 실패 문제로 인해 심리학에 대해 배운 것에 대한 믿음이 흔들리나요? 왜 또는 왜 그렇지 않습니까?
  3. 재현이 불가능하다고 생각하는 심리학 연구 결과를 생각해 볼 수 있나요?
  4. 어떤 결과가 재현되어야 할 정도로 중요하다고 생각하시나요?
  5. 왜 상당수의 연구가 재현되지 않는다고 생각하시나요?
  6. 위조된 결과가 얼마나 자주 발생한다고 생각하시나요? 왜 그럴까요? 어떻게 예방할 수 있을까요?

Vocabulary

Conceptual Replication
A scientific attempt to copy the scientific hypothesis used in an earlier study in an effort to determine whether the results will generalize to different samples, times, or situations. The same—or similar—results are an indication that the findings are generalizable.
Confederate
An actor working with the researcher. Most often, this individual is used to deceive unsuspecting research participants. Also known as a “stooge.”
Exact Replication (also called Direct Replication)
A scientific attempt to exactly copy the scientific methods used in an earlier study in an effort to determine whether the results are consistent. The same—or similar—results are an indication that the findings are accurate.
Falsified data (faked data)
Data that are fabricated, or made up, by researchers intentionally trying to pass off research results that are inaccurate. This is a serious ethical breach and can even be a criminal offense.
Priming
The process by which exposing people to one stimulus makes certain thoughts, feelings or behaviors more salient.
Sample Size
The number of participants in a study. Sample size is important because it can influence the confidence scientists have in the accuracy and generalizability of their results.

References

  • Amir, Y., & Sharon, I. (1990). Replication research: A “must” for the scientific advancement of psychology. Journal of Social Behavior and Personality, Special Issue, 5, 51-69.
  • Asch, S. E. (1956). Studies of independence and conformity: I. A minority of one against a unanimous majority. Psychological Monographs, 70 (9, Whole No. 416).
  • Bem, DJ (March 2011). "Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect." Journal of personality and social psychology, 100, 407–25.
  • Biswas-Diener, R., & Diener, E. (2006). Subjective well-being of the homeless, and lessons for happiness. Social Indicators Research. 76, 185-205.
  • Biswas-Diener, R. , & Diener, E. (2001). Making the best of a bad situation: Satisfaction in the slums of Calcutta. Social Indicators Research, 55, 329-352.
  • Dijksterhuis, A., & van Knippenberg, A. (1998). The relation between perception and behavior or how to win a game of Trivial Pursuit. Journal of Personality and Social Psychology, 74, 865–877.
  • Galak, J., LeBoeuf, R. A., Nelson, L. D., & Simmons, J. P. (2012, August 27). Correcting the Past: Failures to Replicate Psi. Journal of Personality and Social Psychology.
  • Griggs & Whitehead (2015). Coverage of Milgram’s obedience experiments in social psychology textbooks: Where have all the criticisms gone? Teaching of Psychology, 42, 315-322.
  • Griggs, R. A. & Whitehead, G. I. (2014). Coverage of the Stanford Prison Experiment in Introductory Social Psychology textbooks. Teaching of Psychology, 41, 318-324.
  • Kahneman, D. (2012). A proposal to deal with questions about priming effects. An open letter to the scientific community: http://www.nature.com/polopoly_fs/7.6716.1349271308!/suppinfoFile/Kahneman%20Letter.pdf
  • Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349.
  • Ritchie, S. J., Wiseman, R., & French, C. C. (2012). Failing the future: Three unsuccessful attempts to replicate Bem’s ‘retroactive facilitation of recall’ effect. PLOS One. DOI: 10.1371/journal.pone.0033423
  • Shanks, D. R., Newell, B., Lee, E. H., Balikrishnan, D., Ekelund, L., Cenac, Z., Kavvadia, F. & Moore, C. (2013). Priming intelligent behavior: Elusive phenomenon. PLOS One. DOI: 10.1371/journal.pone.0056515
  • Williams, L. E., & Bargh, J. A. (2008). Keeping one's distance: The influence of spatial distance cues on affect and evaluation. Psychological Science, 19, 302-308.

Authors

  • Edward Diener
    Ed Diener, Senior Scientist for the Gallup Organization and professor at the University of Virginia and University of Utah, received three of the highest honors in psychology (APA’s Distinguished Scientist Award, the APS William James Award, and election to the American Academy of Arts and Sciences) for his groundbreaking research on happiness.
  • Robert Biswas-Diener
    Dr. Robert Biswas-Diener is a part-time instructor at Portland State University and is senior editor of Noba. He has more than 50 publications on happiness and other positive topics in peer-reviewed journals. He is author of The Upside of Your Dark Side.

Creative Commons License

Creative CommonsAttributionNon-CommericalShare-AlikeThe Replication Crisis in Psychology by Edward Diener and Robert Biswas-Diener is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License. Permissions beyond the scope of this license may be available in our Licensing Agreement.

How to cite this Noba module using APA Style

Diener, E. & Biswas-Diener, R. (2023). The replication crisis in psychology. In R. Biswas-Diener & E. Diener (Eds), Noba textbook series: Psychology. Champaign, IL: DEF publishers. Retrieved from http://noba.to/q4cvydeh
You should also read: