Uma dúvida comum entre os estudantes é entender como sua nota é calculada em provas objetivas. O questionamento se justifica, já que pode acontecer de dois alunos responderem o mesmo número de questões de forma correta e, mesmo assim, receberem pontuações completamente diferentes.
Em avaliações educacionais realizadas em grande escala, o número de acertos não é o único critério adotado para calcular a nota, e sim uma série de fatores, que vão desde o grau de dificuldade das questões à possibilidade de acertá-las na base do “chute”. Mas como a combinação desses elementos ajuda a criar uma métrica confiável de desempenho?
É aí que entra em cena a Teoria de Resposta ao Item (TRI), uma abordagem estatística amplamente utilizada em testes de múltipla escolha — como as provas do Exame Nacional do Ensino Médio (Enem). Sua finalidade é tornar o processo avaliativo mais justo, considerando a qualidade das questões e o desempenho do estudante em relação a elas.
Neste texto, o Desafios da Educação explica o que é a TRI e como ela mede a proficiência real dos estudantes nas avaliações.
A Teoria de Resposta ao Item é utilizada para criar, analisar e interpretar provas de forma mais justa e precisa. Seu objetivo é medir a habilidade do estudante com base no padrão de acertos e erros, considerando que cada questão (ou item) tem características específicas que influenciam no resultado.
Diferente da Teoria Clássica dos Testes (TCT) — que avalia apenas o total de acertos e erros —, ela parte do princípio de que a possibilidade de acertar um item depende de determinados parâmetros e da habilidade da pessoa. Em outras palavras, a TRI tenta entender a relação entre o conhecimento que o aluno possui sobre o conteúdo e a probabilidade de ele responder corretamente a uma questão específica.
A nota final não leva em conta apenas o resultado bruto da prova. É por isso que dois alunos com a mesma quantidade de acertos e de erros podem ter pontuações diferentes.
A TRI tem sido adotada amplamente em avaliações educacionais de grande escala devido às várias vantagens que ela oferece em comparação com os modelos tradicionais de avaliação.
No Brasil, o exemplo mais notório é o do Enem. As 180 questões do exame são divididas em três níveis — fácil, médio e difícil. O algoritmo consegue identificar, pelo padrão de erros e acertos do candidato, se ele acertou por que de fato sabia, recebendo o ponto inteiro da questão, ou se chutou, não recebendo a pontuação cheia.
O aluno não consegue descobrir o nível de dificuldade enquanto faz a prova, porque isso só é definido quando os cartões-resposta estão sendo corrigidos. As questões mais acertadas pelos candidatos entram no grupo das fáceis, tendo uma pontuação mais baixa, enquanto as com baixa taxa de acertos são classificadas como difíceis e têm um valor maior.
Em um guia criado para explicar como são atribuídas as notas do Enem, o Ministério da Educação (MEC) destaca que a metodologia valoriza a coerência das respostas. “Espera-se que participantes que acertaram as questões difíceis devam também acertar as questões fáceis, pois entende-se que a aquisição do conhecimento ocorre de forma cumulativa”, defende a pasta.
É comum pensar que o uso da TRI no cálculo dos resultados altera a dificuldade da prova. Porém, ela não tem nenhuma influência nesse sentido. No caso do Enem, além de proporcionar avaliações coerentes, a metodologia evita um grande número de empates, já que as notas são “quebradas”. Isso ajuda a diferenciar ainda mais o desempenho dos candidatos.
No Exame Nacional de Desempenho dos Estudantes (Enade), a TRI é aplicada nas questões de múltipla escolha, para estimar a proficiência dos alunos em relação aos conteúdos cobrados, mas também para realizar comparações justas entre provas de diferentes anos e áreas. Seu uso permite análises estatísticas mais robustas, o que ajuda na construção de indicadores como o conceito Enade, o Conceito Preliminar de Curso (CPC) e o Indicador de Diferença entre os Desempenhos Observado e Esperado (IDD).
O método também é adotado no Sistema de Avaliação da Educação Básica (Saeb), para avaliar a qualidade da educação básica no Brasil. Dessa forma, é possível garantir a comparabilidade entre os resultados de estudantes de diferentes escolas e regiões.
Por fim, a TRI é fundamental para o funcionamento de testes adaptativos, nos quais a dificuldade das questões se ajusta dinamicamente com base no desempenho do candidato. Isso é comum em avaliações como a GRE (Graduate Record Examinations), usada principalmente para a admissão em programas de pós-graduação nos Estados Unidos.
A TRI é baseada em um modelo probabilístico, no qual a chance de um estudante acertar ou errar depende de sua habilidade e das características da questão. A resposta é modelada como uma probabilidade, que varia de acordo com três parâmetros:
Os três parâmetros são usados para construir uma função de resposta ao item que mostra a probabilidade de o estudante responder corretamente. Essa probabilidade é modelada por uma função logística, ajustada para cada item do teste.
Se um aluno com baixa proficiência acerta uma questão muito difícil e com alta discriminação, a TRI pode atribuir menos valor a esse acerto, pois há maior probabilidade de que ele tenha acertado por acaso. Por outro lado, se um estudante com alta proficiência acerta essa mesma questão, o modelo considera o acerto mais consistente com o seu nível, atribuindo a ele um peso maior na estimativa de proficiência.
Pode parecer confuso — e, sem a plena compreensão dos critérios, até mesmo injusto —, mas é justamente o contrário. A TRI segue rígidos padrões estatísticos para mensurar a coerência das respostas, como veremos a seguir.
Os parâmetros das questões (dificuldade, discriminação e acerto casual) não surgem do nada e não são definidos somente na hora da correção. Eles são estabelecidos antes da aplicação da prova, em uma etapa chamada de pré-teste ou calibração.
Os responsáveis pela elaboração dos testes criam um banco de itens com base em critérios pedagógicos e estatísticos. Essas questões são aplicadas a um grupo representativo do público-alvo, utilizado apenas para análise técnica.
Durante o processo, o modelo ajusta os parâmetros de cada questão para identificar a dificuldade que ela representa, sua capacidade de discriminar entre diferentes níveis de proficiência e a probabilidade de um estudante acertar a questão por acaso. Itens que apresentam mau desempenho estatístico (por exemplo, um alto índice de acertos por “chute”) são descartados ou revisados antes de entrarem na prova oficial.
Esses parâmetros são fixados e utilizados na prova real. Depois que ela é aplicada aos estudantes, a TRI utiliza as respostas para estimar a proficiência de cada um, com base na calibração prévia das questões.
A metodologia da TRI é um tanto complexa. Por isso, a melhor forma de entendê-la é com um exemplo prático.
Vamos supor que um estudante fez uma prova com três questões. Cada uma delas tem um parâmetro de dificuldade (b), discriminação (a) e chance de acerto ao acaso (c), conforme a tabela abaixo:
Digamos que o estudante acertou duas das três questões. Agora, vamos entender como a TRI pode estimar a proficiência dele.
A TRI considera os padrões de acertos e erros para estimar a probabilidade de um estudante acertar cada questão, com base em seu nível de habilidade. Vamos acompanhar o que acontece quando um aluno acerta a Q1 e a Q2, mas erra a Q3:
Se o estudante acertou a Q1 (média) e a Q2 (fácil), ele provavelmente tem uma habilidade acima da média. Mas está longe de ser um "gênio", porque errou a questão difícil (Q3).
Isso leva a TRI a pensar que a habilidade do aluno não é tão alta quanto poderia ser. Assim, puxa sua estimativa de habilidade um pouco para baixo.
Após a TRI processar todas as respostas e levar em conta a dificuldade e a discriminação de cada questão, ela estima a habilidade do aluno, que é expressa em uma escala contínua.
Vamos supor que a habilidade seja 1.2 na escala (em que 0 é a média e números acima de 1 indicam maior proficiência). Nesse caso, o estudante estaria “apenas” acima da média, já que acertou algumas questões fáceis, mas errou a mais difícil.
É por isso que se diz que a TRI ajuda a medir o verdadeiro conhecimento dos estudantes: ela interpreta as respostas, identificando se os acertos fazem sentido diante da dificuldade das questões e do nível de habilidade estimado.
A coordenadora de Negócios da Plataforma A, Raphaela Novaes, considera a Teoria da Resposta ao Item “um divisor de águas na avaliação acadêmica”. “Seu grande diferencial é medir não só o que o aluno acertou, mas a probabilidade de ele realmente dominar aquele conhecimento”, afirma.
Segundo Novaes, além de reduzir o impacto do “chute”, a metodologia melhora a precisão na diferenciação entre alunos com diferentes níveis de proficiência. Isso ajuda a pensar em estratégias de aprendizagem posteriores às provas.
“Em avaliações institucionais, como o Enade, a TRI possibilita comparações mais justas entre diferentes aplicações da prova, o que fortalece a credibilidade dos resultados”, complementa.
O desafio está na implementação da metodologia, que exige um banco de itens robusto e um modelo estatístico bem estruturado. “Optar por um banco de questões e um sistema de avaliação já pronto pode otimizar esse trabalho e garantir o sucesso na implementação da Teoria de Resposta ao item”, diz a coordenadora.
Mais do que uma ferramenta de correção de provas, a TRI é um instrumento de transformação pedagógica. Por isso, causa diversos impactos na forma de ensinar, avaliar e planejar dentro das instituições de ensino
O primeiro deles é orientar a aprendizagem para o desenvolvimento de habilidades. O ensino deixa de ser apenas uma preparação para “acertar questões”, e passa a ser um caminho para desenvolver competências reais e duradouras. Na prática, isso requer:
Uma boa prova na lógica da TRI é aquela que produz dados confiáveis sobre o que o aluno realmente sabe, permitindo uma leitura mais justa do processo de ensino-aprendizagem. Para que a avaliação funcione dentro dessa proposta, é importante:
A TRI gera informações valiosas que podem — e devem — ser usadas para ajustar a prática pedagógica. Relatórios de proficiência, por exemplo, ajudam a entender em que nível os alunos se encontram e quais são suas maiores dificuldades. Com base nesses dados, professores e coordenadores conseguem ajustar conteúdos que não foram bem assimilados e até mesmo reconsiderar o uso de materiais didáticos e métodos de avaliação.
Por fim, é importante lembrar que a Teoria de Resposta ao Item preza pela avaliação formativa, e não apenas classificatória. Nesse sentido, também pode ser uma excelente ferramenta para ajudar a identificar padrões de aprendizagem e tomar decisões mais precisas sobre o acompanhamento e o desenvolvimento dos estudantes.
Fonte: Desafios da Educação